多模态

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

书生·万象InternVL 2.5

书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具,通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块,确保生成的音频与视频帧或文本描述时间轴完全对应,适用于影视制作、游戏开发、虚拟现实等多种场景,极大提升了跨模态数据处理的能力和应用效率。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具,依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容,涵盖像素、文本、图像及表单等多种形式的数据,支持复杂任务处理与自动化流程管理。此外,它强调用户体验与安全性,在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架,集成了 OpenAI 实时 API 和 RTC 技术,支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能,支持高性能实时通信和模块化扩展,适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

STIV

STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。

DiffSensei

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架,它结合了基于扩散的图像生成技术和多模态大型语言模型(MLLM)。该工具能够根据用户提供的文本提示和角色图像,生成具有高精度和视觉吸引力的黑白漫画面板,支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等,广泛应用于漫画创作、个性化内容生成、教育和培训等领

Maya

Maya是一款开源多语言多模态模型,基于LLaVA框架开发,支持中文、法语、西班牙语等多种语言,专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据,实现跨模态对齐和指令微调,广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

Project Astra

Project Astra是一款由谷歌DeepMind研发的多模态虚拟助手,支持自然语言和视觉交互。它具备实时对话、记忆功能及工具集成能力,可帮助用户处理日常任务、旅行规划、健康咨询等多种场景需求。当前版本仍在测试中,致力于提升用户体验并保障技术的可靠性。