多模态AI

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 977 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 790 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 806 浏览

心影大模型

心影大模型是一款专注于游戏领域的AI工具，基于超百万条游戏数据训练，支持《原神》《艾尔登法环》等主流游戏，提供精准攻略查询、情感化角色互动、多模态交互等功能。其响应速度快，准确率高，适用于游戏辅导、情绪支持、心理陪伴等多种场景，提升用户体验与互动性。

AI项目与工具 2025年06月11日 88 点赞 0 评论 563 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 725 浏览

Image to Music

Image to Music 是一款基于AI的图像转音乐工具，通过分析图像的颜色、形状和纹理等元素，生成多种风格的音乐。用户可直接上传图片并选择模型，快速获得钢琴、吉他、管弦乐等音乐作品。无需注册，无使用限制，适用于音乐创作、广告营销、教育及个性化礼物制作等多种场景，为艺术创作提供新思路。

AI项目与工具 2025年06月11日 80 点赞 0 评论 658 浏览

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具，集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能，支持多客户端和多场景应用。基于标准化接口和开源生态，提供高效、灵活的数字生产力解决方案，适用于内容创作、虚拟主播、在线教育等多个领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 605 浏览

灵语文档

灵语文档（MindLink）是一款AI驱动的云文档编辑平台，为企业提供一站式文档编辑和共享服务。平台支持思维导图、原型白板、可视化图表等多种文档组件，具备版本历史管理、智能创作、全平台访问、权限控制和AI智能助手等功能。基于AI与多模态能力，灵语文档提升团队协作效率，打破部门壁垒，增强信息共享，确保文档安全，助力企业高效管理知识资产，赋能数字化转型。

AI项目与工具 2025年06月11日 74 点赞 0 评论 819 浏览

元分身

元分身平台基于多模态AIGC与互动技术，打造媲美真人的的形象、声音、表情、动作、个性的AI数字人，应用于视频合成、直播、个性化交互等场景。

AI服务商 2025年06月05日 75 点赞 0 评论 779 浏览

多模态AI

首页

多模态AI

列表

默认

浏览次数

发布日期