爬虫

WiseFlow

WiseFlow 是一个开源的 AI 信息挖掘工具,可以从网站、微信公众号、社交媒体等多源信息中智能提取并分类数据。该工具结合了统计学习和大型语言模型(LLM),优化了对微信公众号文章的解析,并支持多种新闻页面的处理。WiseFlow 设计轻巧,无需 GPU 即可运行,适用于任何硬件环境,是信息过载时代的信息管理理想助手。

Bytespider

Bytespider 是一款由字节跳动推出的网络爬虫工具,凭借极高的数据抓取速度和多线程处理技术,支持互联网数据的高效采集与分析。该工具不仅用于优化字节跳动的AI语言模型,还广泛应用于搜索引擎构建、市场情报分析、客户洞察、内容监控和学术研究等多个场景。

Crawl4AI

Crawl4AI 是一个基于 Python 的异步爬虫框架,专注于高效提取网页数据。它支持多种数据格式输出,可提取多媒体内容、链接和元数据,并具备强大的自定义功能和高级提取策略。Crawl4AI 利用异步编程和主流解析库提升性能,适用于市场研究、客户洞察、内容聚合、数据科学、学术研究和产品监控等场景。

Crawl4LLM

Crawl4LLM是由清华与CMU联合开发的智能爬虫系统,通过评估网页对大语言模型预训练的价值,提升数据获取效率。支持多种爬取模式,具备状态保存、数据可视化功能,并与DCLM框架兼容。采用多维度评分机制优化爬取策略,减少低价值内容抓取,降低对网站负担,适用于LLM预训练、数据集构建等场景。

DevDocs

DevDocs是一款面向开发者的技术文档爬取与处理工具,支持1至5层深度爬取,具备智能去重、多线程处理及内容清洗功能。其支持Markdown和JSON格式输出,并集成MCP协议,便于与AI工具对接。该工具可通过Docker快速部署,适用于AI训练、文档整理、知识管理等多种场景,提升开发效率与数据可用性。

ScrapeGraphAI

ScrapeGraphAI 是一款基于大型语言模型(LLM)的智能网络爬虫工具包,能够高效提取结构化数据。其核心功能包括 SmartScraper、SearchScraper 和 Markdownify,支持自然语言驱动的爬取、多页面搜索、自适应爬取、多模型和多平台兼容,可生成代码并存储为 CSV 或 JSON 格式。适用于市场分析、学术研究、产品信息收集等场景。

Firecrawl Extract

只需通过简单的自然语言提示,Firecrawl Extract就能将整个网站转换为结构化数据,完全省去手动写脚本的麻烦。

短剧搜

一个专注于短剧搜索的引擎,提供丰富的网盘资源搜索功能,支持百度网盘、阿里云盘、夸克云盘等网盘资源的全文检索,短剧搜索,影视搜索。

Platon.AI

Platon.AI柏拉图智能不仅仅是 AI 爬虫,也是 AI agents 的基础设施。 AI agents 要使用工具,就必须高速阅读理解在线网页,理解网页上的每一个元素——这就是 platon.AI 的技术。