多模态 - 智狐AI导航

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 878 浏览

OpenAI o3

OpenAI o3是一款具备图像推理能力的AI模型，融合了神经符号学习与概率逻辑，支持多模态任务处理。它能够自主调用工具解决复杂问题，擅长编程、数学、科学等领域，同时在安全性方面进行了显著优化。o3在多基准测试中表现优异，提供透明的推理路径和高效的多任务处理能力。

AI项目与工具 2025年06月12日 85 点赞 0 评论 878 浏览

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型，专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述，结合对比学习方法，实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色，准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 879 浏览

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型，支持文本与图像生成及对话式编辑，能根据自然语言生成连贯图像，并保持上下文一致性。其在长文本渲染方面表现优异，适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成，广泛应用于创意插图、互动故事、设计辅助等场景。

AI项目与工具 2025年06月12日 18 点赞 0 评论 880 浏览

星火医疗大模型X1

星火医疗大模型X1是科大讯飞开发的专注于医疗领域的深度推理模型，具备强大的复杂问题处理能力和循证推理能力，显著降低医疗幻觉问题。该模型支持个性化健康建议、辅助诊断、病历质控、多模态医疗应用及健康管理等多种功能，广泛应用于医院和健康服务平台，提升医疗效率与准确性。

AI项目与工具 2025年06月12日 41 点赞 0 评论 880 浏览

谷觅AI

支持AI文章自动生成，谷觅AI提供自动写作和批量创作能力，AI写作生成器系统工具。

AI写作对话 2025年06月05日 87 点赞 0 评论 881 浏览

Pipecat

Pipecat是一款开源Python框架，用于构建语音和多模态对话系统。它整合了语音识别、文本转语音及对话处理功能，支持与主流AI平台集成，采用模块化管道架构，提升开发效率。基于帧的实时处理机制确保流畅交互，适用于语音助手、企业服务、教育、医疗及多模态应用等多种场景。

AI项目与工具 2025年06月12日 78 点赞 0 评论 881 浏览

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型（MLLMs），能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能，并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外，OpenEMMA支持人类可读的输出，适用于多种驾驶环境，包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。

AI项目与工具 2025年06月12日 36 点赞 0 评论 883 浏览

Learn About

Learn About是一款由谷歌开发的对话式AI学习助手，基于Gemini模型，通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能，覆盖多学科领域，支持多模态学习资源，旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。

AI项目与工具 2025年06月12日 31 点赞 0 评论 884 浏览

智谱AutoGLM Web

基于智谱开发的AutoGLM，是由智谱AI团队开发的先进AI智能体，它专为模拟人类操作手机和网页而设计，能够理解屏幕界面信息。

GPTs应用 2025年06月05日 21 点赞 0 评论 885 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

MM