多模态 - 智狐AI导航

FlagevalMM

FlagEvalMM是一个由北京智源人工智能研究院开发的开源多模态模型评测框架，专注于评估处理文本、图像、视频等多模态任务的模型性能。它支持多种任务和指标，采用解耦评测与推理的设计，提供统一的评测流程，集成丰富模型库并兼容多种后端引擎。该工具适用于学术研究、工业应用、模型开发、教育领域及内容创作等多个场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 463 浏览

MultiFoley

MultiFoley是一款基于多模态控制的音效生成系统，能够根据文本、音频或视频输入生成与视频同步的高质量Foley声音效果。它支持文本驱动和音频驱动的音效生成，同时具备音频扩展和质量控制功能，广泛应用于电影、游戏、动画及虚拟现实等领域，为用户提供灵活且高效的声音设计解决方案。

AI项目与工具 2025年06月12日 78 点赞 0 评论 775 浏览

狸谱

狸谱是一款集AI图像处理与互动创作于一体的多功能工具，提供“灵魂提取器”功能用于生成物体相关人设形象，同时拥有AI壁纸漫画创作、跑团剧情互动及自定义画风等功能。狸谱凭借其多模态大模型技术和丰富的应用场景，满足用户在娱乐、创意、教育等多个领域的多样化需求。

AI项目与工具 2025年06月12日 96 点赞 0 评论 490 浏览

Amazon Nova是亚马逊云服务推出的一套强大的AI基础模型系列，涵盖文本、图像和视频生成等多个领域。其核心产品包括Amazon Nova Micro（专注文本处理）、Amazon Nova Lite（多模态低成本模型）、Amazon Nova Pro（多模态平衡型模型）、Amazon Nova Premier（复杂推理模型）、Amazon Nova Canvas（图像生成模型）和Amazon

AI项目与工具 2025年06月12日 74 点赞 0 评论 803 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 673 浏览

Optimus

Optimus-1是一款由哈尔滨工业大学（深圳）和鹏城实验室联合开发的智能体框架，专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验，通过混合多模态记忆模块（HDKG与AMEP）提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化，已在游戏、虚拟助理、工业自动化等领域得到验证。

AI项目与工具 2025年06月12日 98 点赞 0 评论 778 浏览

办公小浣熊2.0

办公小浣熊2.0是一款由商汤科技开发的AI办公助手，其核心功能围绕“浣熊三步法”展开，涵盖规划、分析与写作三大模块。该工具支持个人知识库建设、信息检索、文档编辑及对话转文档等功能，尤其擅长无编程数据分析与文档解析，同时提供内容生成、校对、创意辅助等服务，广泛应用于办公、学习、研究及项目管理等领域。

AI项目与工具 2025年06月12日 68 点赞 0 评论 725 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 747 浏览

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统，支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型（Social VLA），可识别用户的多模态输入并生成相应响应，涵盖多种角色类型及互动场景，如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调，适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 686 浏览

GenMAC

GenMAC是一款基于多代理协作的迭代框架，旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段，结合验证、建议、修正和输出结构化子任务，利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域，显著提升视频生成的效率和质量。

AI项目与工具 2025年06月12日 42 点赞 0 评论 452 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期