多模态 - 智狐AI导航

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 581 浏览

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统，支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型（Social VLA），可识别用户的多模态输入并生成相应响应，涵盖多种角色类型及互动场景，如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调，适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 581 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 580 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 579 浏览

Agent

Agent-S 是一款基于图形用户界面（GUI）的人机交互自动化框架，通过经验增强的分层规划和代理-计算机接口（ACI），实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型（MLLMs）进行推理和控制，并具备持续学习和跨操作系统通用性的特点，适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 579 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 578 浏览

MinerU

MinerU是一款开源智能数据提取工具，专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式，支持图像、公式、表格和文本等多种内容处理，保留原始文档结构和格式，支持公式识别与转换成LaTeX格式，自动删除页眉、页脚、脚注和页码等非内容元素，适用于学术、财务、法律等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 578 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 578 浏览

Talkie

Talkie是一款基于人工智能技术打造的虚拟伴侣应用，主打高度定制化虚拟角色和沉浸式互动体验。它支持用户通过文本、语音及图像与AI角色交流，并提供角色创建、卡牌收集、智能推荐等功能。自推出以来，Talkie迅速获得了全球用户的青睐，在个性化聊天、情感陪伴及沉浸式叙事方面展现出强大潜力。

AI项目与工具 2025年06月12日 17 点赞 0 评论 578 浏览

跃问

一款免费AI聊天机器人，个人效率助手，跃问支持多模态能力，能够理解图片物体、阅读总结文档信息和解析网页内容，支持连续的多轮对话等。

AI写作对话 2025年06月05日 47 点赞 0 评论 576 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期