CCI 3.0

简介：CCI 3.0是一项由智源研究院开发的大规模中文互联网语料库，包含1000GB主数据集及498GB高质量子集。该语料库覆盖新闻、社交媒体、博客等领域，数据规模较前代扩大近一倍，来源增至20余家机构。通过多维度标注与数据清洗技术，CCI 3.0筛选出高价值数据，适用于自然语言处理、大模型训练、知识图谱构建、内容推荐系统以及教育科研等多种应用场景。

AI小编 838 阅读 0 评论 16 点赞

官网地址

CCI 3.0是由智源研究院推出的一项大规模中文互联网语料库项目，包含1000GB的完整数据集及498GB的高质量子集（CCI 3.0-HQ）。相比前代版本，数据规模扩大近一倍，数据来源扩展至20余家机构，涵盖新闻、社交媒体、博客等多个领域，共计收录超过2.68亿个网页。该语料库通过多维度的细致分类与标记，包括语法、句法、教育水平等10余项指标，筛选出高价值数据，并采用多种数据清洗技术，如基于规则的过滤、基于模型的检测及数据去重，确保数据质量和安全性。此外，CCI 3.0支持便捷下载，可在Flopsera、Huggingface和Datahub等平台获取，为研究者和开发者提供有力支持。

本文分类：AI项目与工具
本文标签：AI工具中文语料库数据集自然语言处理大规模数据高质量数据数据清洗知识图谱模型训练学术研究
浏览次数：838 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/11173.html

评论列表共有 0 条评论

暂无评论

CCI 3.0

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复