集成式网页存档工具包:Wayback 技术

Wayback 是一个强大的跨平台网页存档工具包,可以将源网页同时备份至 Internet Archivearchive.todayTelegraphIPFS,并将源网页生成的长截图、PDF 及其他文件上传到匿名网盘 AnonFilesCatbox

1 使用方法

1.1 使用公共实例

Wayback 提供了公共实例 https://wabarc.eu.orghttps://initium.eu.org/。(https://github.com/wabarc/statushttps://wabarcstatus.eu.org/ 可以查看公共示例的在线状态)

打开实例网站,在文本框内输入需要存档的源网页链接,完成后点击存档按钮即可。

Wayback 会自动将存档结果作为一条 Issue 添加到 GitHub 仓库 dropod/issues 的 Issue 区(这点类似于之前的 duty-machine)。效果图如下:

建议仅将 dropod/issues 当成信息的中转站,存档完成后及时取回结果另行保存或二次发布。

GitHub Issues 里的信息未经分类整理,鱼龙混杂,并不适合作为备份网页信息的获取来源。目前 Issues 区里混入了一些并无备份必要的中新网、新华网、人民网等红专网页,有五毛恶意灌水捣乱之嫌。GitHub Issues 也不适合作为稳定可靠的信息发布渠道,不排除之后有五毛/网军重施对付 duty-machine 的故技——提交带有违反 GitHub 平台条款内容的 issue 后向平台举报,致开发者被封号。参见:2047|duty-machine-bot:duty-machine项目被Github移除的状况和news项目新地址 , /t/11592

1.2 使用 Telegram bot

Telegram Bot https://t.me/wabarc_bot (由 @libgen 补充)

1.3 下载至本地使用

参考 Wayback 的 README.md 中的安装和使用说明,下载安装 Wayback 后将其作为命令行工具使用(类似 archivenow

1.4 在线部署使用

Wayback 可被部署到 GitHub 和 Heroku 上,参见:

2 使用场景

  • 将存档结果推送至 Telegram channel、Mastodon 或 GitHub Issues
  • 作为后台留驻服务与 IRC、Martix、Telegram bot、Discord bot、Mastodon 和 Twitter 交互
  • 作为 Tor 隐藏服务(Tor Hidden Service)运行

Telegram Bot Discord Bot Matrix Bot Matrix Room Tor Hidden Service World Wide Web

(由 @libgen 补充)


开发者的推特:Wayback Archiver(由 @libgen 补充)


本人对该项目的了解较为有限,感兴趣且有能力的7友可以自行探索 Wayback 的更多功能和用法。

( 由 作者 于 9月18日 编辑 )
10
9月16日 269 次浏览
12 个评论
耶渣
狼狼醬 基督徒。披著文科外皮的理科生。

(十分感謝,可是下戴zip之後找不到.exe就不知怎麼辦了……)

图书馆革命🌈
libgen 天堂应该是图书馆的模样。一个阅读诗歌的人要比不读诗歌的人更难被战胜。创造是一种拯救。创造拯救了创造者本身。

非常好的项目。据我所知,作者应该是受端点星事件的触动而开发的,早前TA的 Twitter 个人说明里有声援端点星,近期也转载了他们出狱的消息。

Telegram Bot 是最方便的:https://t.me/wabarc_bot

另:https://te.legra.ph 没有被墙。

邹韬奋 (男)消极自由需要积极的个人主义来维护

@Wolfychan #157333 要安装Golang解释器吧。这玩意和python类似都是脚本代码,本身不能run。

wabarc.eu.org: Application error

下面是各种使用场景:

Telegram Bot Discord Bot Matrix Bot Matrix Room Tor Hidden Service World Wide Web

( 由 作者 于 9月19日 编辑 )

@Antony #170027
https://github.com/wabarc/statushttps://wabarcstatus.eu.org/ 可以查看 Wayback 公共示例的在线状态

不能自动存到 archive.today 有点遗憾

建议每隔多少天清空一次dropod/issues

( 由 作者 于 9月24日 编辑 )

@Antony #170976 用 telegram bot, 可以的。

中央社的网页标题识别错误, https://www.cna.com.tw/news/firstnews/202109230388.aspx 是“英警告維權人士 避免前往與中國有引渡協議國家 | 國際 | 重點新聞 | 中央社 CNA”,却识别为“香港支聯會走入歷史 16日晚移除電子平台訊息 | 兩岸 | 重點新聞 | 中央社 CNA”。

@libgen #170990 我试过了,的确不会自动存到archive.today,需打开archive.today网站手动存一下。

@Antony #171018 谢谢提醒,我比较常用互联网档案馆,因为有不同的时间戳。

欲参与讨论,请 登录注册

example notif text