想要抓取网页内容喂给 AI 或者做稍后读应用,最大的阻碍往往不是网络请求,而是如何从满屏的广告、侧边栏和导航里,精准提取出正文。

最近发现 article-extractor 这个开源库,专门用来解决这个问题,能从复杂的 URL 中智能识别并提取核心文章数据。

能够自动去除页面杂质,返回结构化的标题、正文、封面图、作者甚至阅读时长。

GitHub:http://github.com/extractus/article-extractor

支持自定义转换逻辑(Transformations),允许针对特定域名编写预处理或后处理规则,大幅提升提取精度。

兼容 Node.js、Bun 以及浏览器环境,且支持配置代理和自定义 Headers,方便应对反爬策略。

如果正在开发内容聚合、RSS 阅读器或者需要清洗网页数据用于大模型训练,这个库非常值得加入工具箱。