Crawl4LLM

简介：Crawl4LLM是由清华与CMU联合开发的智能爬虫系统，通过评估网页对大语言模型预训练的价值，提升数据获取效率。支持多种爬取模式，具备状态保存、数据可视化功能，并与DCLM框架兼容。采用多维度评分机制优化爬取策略，减少低价值内容抓取，降低对网站负担，适用于LLM预训练、数据集构建等场景。

AI小编 625 阅读 0 评论 55 点赞

项目地址

Crawl4LLM是由清华大学与卡内基梅隆大学联合开发的开源智能爬虫系统，旨在提升大语言模型（LLM）预训练过程中的数据获取效率。该系统通过评估网页对模型训练的价值，优先抓取高价值内容，相较于传统方法效率提升近5倍。Crawl4LLM支持多种爬取模式，包括智能模式、随机模式和基于链接数量的模式，满足不同场景需求。同时具备爬虫状态保存、数据可视化等功能，并可与DCLM框架无缝集成，便于直接用于模型训练。其技术核心在于使用预训练影响力评分器（如DCLM fastText）对网页进行综合评估，结合内容质量、相关性及链接数量等多维度指标，实现高效的数据筛选。系统采用优先级队列机制替代传统图连通性调度方式，显著提高数据采集的针对性和有效性。此外，Crawl4LLM还注重减少对目标网站的负载，提升爬取行为的合规性与可持续性。项目已在GitHub上开源，并附有相关技术论文，供研究人员和开发者参考与使用。

本文分类：AI项目与工具
本文标签：AI爬虫 LLM预训练数据采集智能爬取 DCLM框架网页评估数据可视化开源工具大规模数据可持续爬取
浏览次数：625 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8809.html

评论列表共有 0 条评论

暂无评论

Crawl4LLM

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复