多媒体检索

首页

多媒体检索

列表

默认

浏览次数

发布日期

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 707 浏览

多媒体检索 首页 多媒体检索

列表 默认 浏览次数 发布日期

AIMv2

多媒体检索

首页

多媒体检索

列表

默认

浏览次数

发布日期