Crawl4LLM是由清华大学与卡内基梅隆大学联合开发的开源智能爬虫系统,旨在提升大语言模型(LLM)预训练过程中的数据获取效率。该系统通过评估网页对模型训练的价值,优先抓取高价值内容,相较于传统方法效率提升近5倍。Crawl4LLM支持多种爬取模式,包括智能模式、随机模式和基于链接数量的模式,满足不同场景需求。同时具备爬虫状态保存、数据可视化等功能,并可与DCLM框架无缝集成,便于直接用于模型训练。 其技术核心在于使用预训练影响力评分器(如DCLM fastText)对网页进行综合评估,结合内容质量、相关性及链接数量等多维度指标,实现高效的数据筛选。系统采用优先级队列机制替代传统图连通性调度方式,显著提高数据采集的针对性和有效性。此外,Crawl4LLM还注重减少对目标网站的负载,提升爬取行为的合规性与可持续性。 项目已在GitHub上开源,并附有相关技术论文,供研究人员和开发者参考与使用。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部