MM1.5是由苹果公司开发的多模态大型语言模型,专注于提升文本与图像的综合理解能力、视觉指代与定位功能,以及多图像间的推理能力。该模型采用数据为中心的训练策略,通过大规模预训练、高分辨率OCR数据的持续优化及视觉指令的微调,实现了从小规模到大规模的高效性能提升。MM1.5包含密集型和混合专家(MoE)变体,证明了小规模模型通过精细的数据策划与训练策略同样能够展现出色的能力。此外,还推出了针对视频理解和移动UI理解优化的专用版本MM1.5-Video和MM1.5-UI,为多模态AI技术的发展提供了宝贵的实践经验。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部