想要抓取网页内容喂给 AI 或者做稍后读应用，最大的阻碍往往不是网络请求，而是如何从满屏的广告、侧边栏和导航里，精准提取出正文

想要抓取网页内容喂给 AI 或者做稍后读应用，最大的阻碍往往不是网络请求，而是如何从满屏的广告、侧边栏和导航里，精准提取出正文。

最近发现 article-extractor 这个开源库，专门用来解决这个问题，能从复杂的 URL 中智能识别并提取核心文章数据。

能够自动去除页面杂质，返回结构化的标题、正文、封面图、作者甚至阅读时长。

GitHub：http://github.com/extractus/article-extractor

支持自定义转换逻辑（Transformations），允许针对特定域名编写预处理或后处理规则，大幅提升提取精度。

兼容 Node.js、Bun 以及浏览器环境，且支持配置代理和自定义 Headers，方便应对反爬策略。

如果正在开发内容聚合、RSS 阅读器或者需要清洗网页数据用于大模型训练，这个库非常值得加入工具箱。