多模态 - 智狐AI导航

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术，实现生物模态（如分子、蛋白质）与自然语言的统一融合，支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异，适用于药物设计、临床前研究及医学文本分析等多种场景，具备较高的文本推理能力和多模态处理能力。

AI项目与工具 2025年06月12日 95 点赞 0 评论 471 浏览

HiDream.ai是一家由前京东副总裁梅涛创立的AI初创公司，推出了名为Pixeling千象的多模态AI视觉平台。该平台支持AI图像、视频和3D生成，集成了先进的神经网络和深度学习技术，具备强大的推理和创造性思维能力，能够实现不同模态之间的无缝转换和互操作性，为用户提供丰富的视觉内容创作及高效的生产力解决方案。主要功能包括智能图片生成、视频创意制作、商品图生成、视频风格转换、3D模型生成、智能重

AI项目与工具 2024年01月01日 31 点赞 0 评论 471 浏览

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 470 浏览

FLORA

FLORA是一款面向创意工作者的AI工具平台，通过节点式画布整合文本、图像和视频生成功能，支持故事分析、角色设计、分镜脚本生成及团队协作，提升创意流程效率，适用于视频创作、游戏开发、设计及教育等领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 469 浏览

卡奥斯智能交互引擎

一款基于工业大模型技术开发的的工业知识智能搜索和解决方案精准生成平台，融合了智能检索、智能应用和多模态连续交互等多种功能。

AI搜索问答 2025年06月05日 86 点赞 0 评论 469 浏览

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人，具备 28 个自由度和高灵活性，可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统，支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景，具备强大的环境感知与任务执行能力。

AI项目与工具 2025年06月12日 43 点赞 0 评论 468 浏览

星火快答

星火快答是科大讯飞推出的AI智能交互系统，集成了虚拟人、语音识别、大数据分析等功能，适用于展厅、会议、营销等场景。支持多模态交互、知识问答、数据可视化与跨屏联动，提升信息传递效率与用户体验。

AI项目与工具 2025年06月12日 86 点赞 0 评论 468 浏览

VideoRAG

VideoRAG是一种基于检索增强生成（RAG）技术的工具，旨在提升长视频的理解能力。它通过提取视频中的多模态信息（如OCR、ASR和对象检测），并将其与视频帧和用户查询结合，增强大型视频语言模型的处理效果。该技术轻量高效，易于集成，适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 468 浏览

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型，采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理，强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本，适用于研究、开发及各类应用场景，展现卓越性能。

AI项目与工具 2025年06月12日 67 点赞 0 评论 468 浏览

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具，集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能，支持多客户端和多场景应用。基于标准化接口和开源生态，提供高效、灵活的数字生产力解决方案，适用于内容创作、虚拟主播、在线教育等多个领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 468 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期