网络爬虫 - 开源软件 - OSCHINA - 中文开源技术交流社区

Secretary 是社交媒体内容 AI 分析工具，该工具可自动抓取监控指定账号的最新发表内容，通过 AI 进行分析，并将结构推送到企业/个人微信。主要功能支持多平台监控（Twitter 和...

Anubis 使用 sha256 工作量证明挑战来衡量你的连接“灵魂”，以保护上游资源免受爬虫机器人的侵害。安装和使用此工具可能会导致你的网站无法被某些搜索引擎索引。大多数情况下，不需要此功能...

更新于 2025/04/16

Maxun 是一个无需代码的 Web 数据抓取平台。它允许用户通过简单的点击界面从任何网站抓取数据。使用 Maxun，用户可以在 2 分钟内创建无需代码的机器人，实现数据抓取自动化，将网站转换为...

Meridian 利用 AI 从数百个新闻源中抓取内容、分析信息，并为我们提供个性化的每日简报。实现原理如下： 1. 抓取：通过 Cloudflare Workers 获取多个 RSS 源的内...

BilibiliHistoryFetcher 是一款用于分析 B 站个人观看历史记录的工具，为用户提供丰富的 B 站观看历史数据分析功能。主要功能获取历史记录年度总结视频和图片下载自动...

ScrapeGraphAI 是一个网络爬虫 Python 库，使用大型语言模型和直接图逻辑为网站和本地文档（XML，HTML，JSON 等）创建爬取管道。快速安装 Scrapegraph-ai...

Crawl4AI 是一款功能丰富的爬虫和抓取工具。提供速度极快、支持 AI 的网页爬取功能，专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活且专为实时性能而构建，可为开发...

Scrapling 是一款 Python 网页爬虫库，具有闪电般快速、智能且难以被检测的特点。特性提供快速且隐蔽的 HTTP 请求自适应网站变化，智能追踪元素性能卓越，比 Beautif...

将整个网站转换为 LLM 可用的 markdown 或结构化数据。使用单个 API 进行抓取、抓取和提取。 Firecrawl 是一种 API 服务，它获取 URL、对其进行抓取并将其转换为干净...

首席情报官（Wiseflow）是一个敏捷的信息挖掘工具，可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息，自动做标签归类并上传数据库。功能特色原生 LLM 应用：精心选择...

Crawlee 是一个由 Apify 开发的网络抓取和浏览器自动化库。它能帮助你构建可靠的爬虫，速度快。 Crawlee 涵盖了端到端的爬行和抓取。为用户提供了在网络上抓取链接、抓取数据并将其存...

feapder[ˈfiːpdə]是一款上手简单，功能强大的 Python 爬虫框架，内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。...

Benny-Scraper 是一款网络小说和漫画抓取工具。可让用户在一个文件中离线存储其喜爱的漫画或网络小说的所有章节。将网络小说存储为 Epub，将漫画存储为 PDF。目标是使用 Benny...

EasySpider是一款完全免费和开源的可视化爬虫软件，此软件可以让大家使用图形化界面，无代码可视化的设计和执行爬虫任务。只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和...

Maigret 是一个基于用户 ID 爬取其在互联网上相关帐号的爬虫。它通过用户名收集对应帐号的档案，在大量的网站上检查此帐号，并从网页上收集所有可用的信息，不需要 API 密钥。 Maigre...

更新于 2022/10/23

depth-crawler 是一个三级页面定向爬取工具。功能 1.在python中运用scrapy框架定向爬取至三级页面，保存html页面内容与链接为xlsx表格 2.将xlsx表格内容存至e...

WebCrawler 是一个网站数据采集工具，使用 scrapy 框架。环境准备 [Scrapy] (http://scrapy.org/) [MongoDB] (https://www.mo...

Sherlock 是一款网络爬虫工具，可根据输入的用户名爬取对应的社交帐号，目前支持 300 多个不同社交平台。用法 $ python3 sherlock --help usage: s...

更新于 2024/02/19

lightcrawler 可以抓取网站并通过 Google lighthouse 运行网站。 npm install --save-dev lightcrawler lightcrawler ...

AppCrawler 是一个基于自动遍历的 App 爬虫工具。支持 Android 和 iOS，支持真机和模拟器。最大的特点是灵活性，可通过配置来设定遍历的规则。为什么做这个工具各大云市场上...