Infinity-MM是由智源研究院开发的千万级多模态指令数据集,包含超过4300万条样本,总数据量达到10TB。该数据集经过严格的质量过滤和去重处理,确保了数据的高质与多样性,能够显著提升开源视觉-语言模型(VLMs)的表现。智源研究院还提出了基于开源VLMs的合成数据生成方法,进一步扩展了数据集的规模和多样性。以此为基础,智源成功训练出一款20亿参数的多模态模型Aquila-VL-2B,其性能在同类规模的模型中处于领先地位。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部