多模态 - 智狐AI导航

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 487 浏览

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型，可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务，如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作，并展现出强大的泛化能力，但在某些方面仍需改进。

AI项目与工具 2025年06月12日 38 点赞 0 评论 555 浏览

interface.ai

interface.ai 是一款面向金融领域的AI解决方案平台，其核心产品 Sphere 提供多模态交互支持，涵盖文本、图像、音频及视频。Sphere 可自动化处理金融业务流程，实时分析对话内容，并为用户提供个性化产品推荐和升级销售建议，从而提升用户体验和机构运营效率。

AI项目与工具 2025年06月12日 98 点赞 0 评论 739 浏览

星辰大模型

星辰大模型是中国电信研发的AI工具集，涵盖语义、视觉、语音等多模态领域，支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择，包括星辰语义模型、星辰语音大模型及星辰多模态大模型，适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。

AI项目与工具 2025年06月12日 86 点赞 0 评论 482 浏览

LobeChat

LobeChat 是一款开源的 AI 聊天框架，支持多供应商集成，提供知识库管理、多模态交互（视觉识别和文本转语音）、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务，并支持文件上传与管理。其应用场景广泛，包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 754 浏览

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具，支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能，兼容U-Net和DiT架构，并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程，提升生成质量与可控性，适用于内容创作、电影制作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 30 点赞 0 评论 562 浏览

DocMind

DocMind是一款基于Transformer架构的文档智能大模型，融合了深度学习、NLP和CV技术，用于处理富文本文档的复杂结构和视觉信息。它能够精准识别文档实体、捕捉文本依赖关系并深入理解文档内容，支持知识库结合，提升专业文档理解能力。DocMind还具备自动执行文档相关任务的功能，如问题解答、文档分类整理等，广泛应用于法律、教育、金融等领域。

AI项目与工具 2025年06月12日 89 点赞 0 评论 853 浏览

Learn About

Learn About是一款由谷歌开发的对话式AI学习助手，基于Gemini模型，通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能，覆盖多学科领域，支持多模态学习资源，旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。

AI项目与工具 2025年06月12日 31 点赞 0 评论 744 浏览

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试，专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题，涉及多个领域，并通过多模态输入输出和细粒度评估指标，全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域，助力提升人工智能系统的综合性能。

AI项目与工具 2025年06月12日 20 点赞 0 评论 764 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 798 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期