多模态

西鲸AI

一个集成了几十款大模型的平台,西鲸AI免费提供文生文大模型的使用,支持midjourney、Dall-E、SD,以及RAG知识库功能。

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

UI

UI-TARS是由字节跳动开发的图形用户界面代理模型,支持通过自然语言实现桌面、移动端和网页的自动化交互。具备多模态感知、跨平台操作、视觉识别、任务规划与记忆管理等功能,适用于自动化任务执行和复杂交互场景。支持云端与本地部署,提供丰富的开发接口,便于集成与扩展。

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

YAYI2

中科闻歌研发的一款新一代开源大语言模型,中文名为“雅意”。该模型包含 Base 和 Chat 版本,参数规模达到 30B,基于 Transformer 架构构建。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型,整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构,支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集,利用残差向量量化和深度变换器提升表示能力,适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

Amazon Nova

Amazon Nova是亚马逊云服务推出的一套强大的AI基础模型系列,涵盖文本、图像和视频生成等多个领域。其核心产品包括Amazon Nova Micro(专注文本处理)、Amazon Nova Lite(多模态低成本模型)、Amazon Nova Pro(多模态平衡型模型)、Amazon Nova Premier(复杂推理模型)、Amazon Nova Canvas(图像生成模型)和Amazon

Mind GPT

Mind GPT-3o是一款由理想汽车推出的大规模多模态端到端人工智能模型,集成了语音、视觉与语言理解技术,具备记忆、规划、工具集成及表达能力。它不仅能理解复杂信息,还能提供个性化服务,如智能驾驶辅助、家居设备控制、日程管理和健康咨询等。通过强化逻辑推理与上下文理解,该模型实现了从感知到表达的智能化跨越,为用户提供全面的支持。