CCI 3.0是由智源研究院推出的一项大规模中文互联网语料库项目,包含1000GB的完整数据集及498GB的高质量子集(CCI 3.0-HQ)。相比前代版本,数据规模扩大近一倍,数据来源扩展至20余家机构,涵盖新闻、社交媒体、博客等多个领域,共计收录超过2.68亿个网页。该语料库通过多维度的细致分类与标记,包括语法、句法、教育水平等10余项指标,筛选出高价值数据,并采用多种数据清洗技术,如基于规则的过滤、基于模型的检测及数据去重,确保数据质量和安全性。此外,CCI 3.0支持便捷下载,可在Flopsera、Huggingface和Datahub等平台获取,为研究者和开发者提供有力支持。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部