多模态 - 智狐AI导航

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型，具备快速处理文本、音频和图像的能力，支持多语言输出和实时音视频流输入。通过Agent技术和工具调用，Gemini 2.0 能够自主理解任务并提供解决方案，已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用，计划逐步开放更多功能。

AI项目与工具 2025年06月12日 63 点赞 0 评论 438 浏览

书生·万象InternVL 2.5

书生·万象InternVL 2.5是一款开源多模态大型语言模型，基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型，支持多种应用场景，包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异，性能超越部分商业模型，并通过链式思考技术提升多模态推理能力。

AI项目与工具 2025年06月12日 100 点赞 0 评论 715 浏览

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 568 浏览

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 772 浏览

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 594 浏览

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 469 浏览

STIV

STIV是一款由苹果公司开发的视频生成大模型，具有8.7亿参数，擅长文本到视频（T2V）及文本图像到视频（TI2V）任务。它通过联合图像-文本分类器自由引导（JIT-CFG）技术提升生成质量，并结合时空注意力机制、旋转位置编码（RoPE）及流匹配训练目标优化性能。STIV支持多种应用场景，包括视频预测、帧插值、长视频生成等，适用于娱乐、教育、广告及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 422 浏览

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架，它结合了基于扩散的图像生成技术和多模态大型语言模型（MLLM）。该工具能够根据用户提供的文本提示和角色图像，生成具有高精度和视觉吸引力的黑白漫画面板，支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等，广泛应用于漫画创作、个性化内容生成、教育和培训等领

AI项目与工具 2025年06月12日 47 点赞 0 评论 612 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 563 浏览

Project Astra

Project Astra是一款由谷歌DeepMind研发的多模态虚拟助手，支持自然语言和视觉交互。它具备实时对话、记忆功能及工具集成能力，可帮助用户处理日常任务、旅行规划、健康咨询等多种场景需求。当前版本仍在测试中，致力于提升用户体验并保障技术的可靠性。

AI项目与工具 2025年06月12日 37 点赞 0 评论 859 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期