多模态

Vidu 1.5

Vidu 1.5是一款基于多模态视频大模型的AI生成工具,支持参考生视频、图生视频和文生视频生成,通过精准的语义理解能力,在30秒内完成高质量视频创作,适用于影视、动漫、广告等多行业场景,助力创作者高效产出多样化内容。

Maya

Maya是一款开源多语言多模态模型,基于LLaVA框架开发,支持中文、法语、西班牙语等多种语言,专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据,实现跨模态对齐和指令微调,广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具,通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块,确保生成的音频与视频帧或文本描述时间轴完全对应,适用于影视制作、游戏开发、虚拟现实等多种场景,极大提升了跨模态数据处理的能力和应用效率。

olmOCR

olmOCR 是一款开源 PDF 文档处理工具,结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型,可高效提取结构化文本并保留原始布局。支持多种文档类型,具备大规模批量处理能力和低成本优势,适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具,支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能,兼容U-Net和DiT架构,并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程,提升生成质量与可控性,适用于内容创作、电影制作、广告营销、教育培训等多个领域。

Augment Agent

Augment Agent 是一款 AI 编程助手,支持 VS Code 和 JetBrains,具备强大上下文处理能力(最高 20 万 tokens),可自动学习用户编码风格并保持一致性。支持多模态输入、代码检查点、终端命令及跨平台协作,适用于复杂代码库开发和日常编程任务,性能在基准测试中表现优异。

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型,可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务,如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作,并展现出强大的泛化能力,但在某些方面仍需改进。

瑞智病理大模型

瑞智病理大模型(RuiPath)是由上海交通大学医学院附属瑞金医院与华为联合开发的国产多模态病理诊断系统,覆盖中国90%的常见癌种及部分罕见病。通过整合图像、文本等多源数据,实现高效、精准的辅助诊断,支持交互式审核流程,提升诊断效率与准确性。模型基于深度学习与华为DCS AI平台,适用于临床诊断、基层医疗、医学教育等多个场景,推动病理诊断智能化发展。

Stackie.AI

Stackie.AI 是一款基于AI的智能记录与管理工具,支持多模态输入(文本、语音、图像),提供自动整理、任务生成、个性化模板及角色互动等功能。适用于健康管理、学习辅助、日常计划与习惯养成等场景,提升信息处理效率与用户体验。

Dust

Dust 是一款面向企业用户的 AI 代理构建平台,支持无代码开发,可快速部署定制化 AI 代理,实现业务流程自动化。其核心功能包括多平台集成、实时数据同步、语义搜索、多模态交互及团队协作等,适用于市场营销、销售、技术支持等多个应用场景,有效提升工作效率和数据利用率。