用这个开源工具从任何网站获取变化提醒
2022-10-11 18:48:52来源:Linux中国
那一年是 2020 年,关于大流行病的消息迅速涌来,每个人都感到完全被类似的新闻文章所淹没,提供了不同程度的更新。
但我需要知道的是,我们的官方准则何时改变。最后,这就是对我来说最重要的事情。
无论关注的是大流行病还是最新的科技新闻,提前了解网站内容的变化都至关重要。
(相关资料图)
changedetection.io项目为网站变更检测和通知提供了一个简单但强大的开源解决方案。它很容易设置,而且可以通知 70 多个(还在不断增加)不同的通知系统,如 Matrix、Mattermost、Nextcloud、Signal、Zulip、Home Assistant、电子邮件等等。它还能通知专有应用,如 Discord、Office365、Reddit、Telegram 和许多其他应用。
但changeetection.io并不只是局限于观察网页内容。你也可以监视 XML 和 JSON 源,它将建立一个 RSS 馈送,记录变化的网站。
由于其内置的 JSON 简单存储系统,不需要设置复杂的数据库来接收和存储信息。你可以使用 Docker 镜像运行或用pip
安装它。该项目有一个全面的维基帮助页,大多数常见的问题都有涵盖。
对于使用复杂 JavaScript 的网站,你可以用内置的Playwright 内容获取器将你的changeetection.io连接到 Chromium 或 Chrome 浏览器。
运行后,在你的浏览器(默认情况下是http://localhost:5000
)中访问该应用。如果你的电脑可以从外部网络访问,你可以在设置Settings中设置一个密码。
change detection watch list
提交你想监控的页面的 URL。有几个与如何过滤该网页有关的设置。例如,你很可能不想知道一家公司在其网站页脚列出的股票价格何时发生变化,但你可能想知道他们在其博客上发布的新闻文章。
监控一个网站想象一下,你想添加你最喜欢的网站Opensource.com进行监控。你只想知道主要标注文章何时包含 “python” 一词,并且通过 Matrix 收到通知。
要做到这点,首先要使用“视觉选择器Visual Filter Selector”工具。(这需要连接playwright浏览器界面)。
Find an element to monitor
该工具会自动计算出针对内容的最佳 Xpath 或 CSS 过滤器。否则,你会从每天的页面更新中得到大量的噪音。
接下来,访问“过滤器和触发器Filters & Triggers”标签。
Filters and triggers
在 “CSS/JSON/XPATH 过滤器CSS/JSON/XPATH Filter”区域(蓝色圆圈),你可以看到上一步自动生成的 CSS 过滤器。
有几个有用的过滤器,比如“移除元素Remove elements”(适合移除嘈杂的元素)、“忽略文本Ignore text”、“触发/等待文本Trigger/wait for text”,和“如果文本匹配则阻止变化检测Block change-detection if text matches”(用于等待一些文本消失,如“售罄”)。
在“触发/等待文本Trigger/wait for text”(红色圆圈)中,输入你想监测的关键词。(在这个例子中是 “python”)。
最后一步是在“通知Notifications”选项卡中,你要在那里配置你想收到的通知。下面我使用 Matrix API 添加了一个 Matrix 房间作为通知目标。
Notifications tab
通知的 URL 的格式是matrixs://username:password@matrix.org/#/room/#room-name:matrix.org
。
然而,t2Bot格式也支持。这里有更多的Matrix 通知选项。
就是这些了! 现在只要内容有变化,你就会通过 Matrix 收到信息。
还有更多changedetection.io还有很多东西。如果你喜欢调用一个自定义的 JSON API,你不需要使用通知的 API(使用jsons://
)。你还可以创建一个自定义的 HTTP 请求(POST 和 GET),在检查前执行 JavaScript(也许是为了预先填充一个用户名和密码的登录字段),以及更多有趣的功能,更多的功能将陆续推出。
不要再浏览网站,而是开始监测网络吧!