InfiMM-WebMath-40B是由字节跳动与中国科学院联合发布的超大规模多模态数据集,主要聚焦于提升多模态模型在数学领域的图文混合推理能力。该数据集源自Common Crawl,通过严格筛选、清洗和标注,整合了2400万个网页、8500万个图像URL以及400亿个文本标记,覆盖丰富的数学与科学内容。InfiMM-WebMath-40B在多项基准测试中表现出色,特别是在MathVerse和We-Math测试中成绩优异。 ---
InfiMM-WebMath-40B是由字节跳动与中国科学院联合发布的超大规模多模态数据集,主要聚焦于提升多模态模型在数学领域的图文混合推理能力。该数据集源自Common Crawl,通过严格筛选、清洗和标注,整合了2400万个网页、8500万个图像URL以及400亿个文本标记,覆盖丰富的数学与科学内容。InfiMM-WebMath-40B在多项基准测试中表现出色,特别是在MathVerse和We-Math测试中成绩优异。 ---
发表评论 取消回复