多模态 - 智狐AI导航

GoCharlie

GoCharlie 是一个专为零售行业设计的全栈 AI 平台，集成了定制化的大型语言模型 Charlie。它支持多模态数据处理，包括文本、图像、视频和音频，为企业提供内容创作、客户服务、营销活动策划及数据分析等全方位解决方案，帮助企业提升运营效率和客户满意度。

AI项目与工具 2025年06月12日 32 点赞 0 评论 732 浏览

Seer

Seer是一款由多家科研机构联合开发的端到端机器人操作模型，基于Transformer架构实现视觉预测与动作执行的高度协同。它能够融合多模态信息，具备强大的泛化能力和数据效率，在真实机器人任务中表现优异。Seer适用于工业自动化、服务机器人、医疗健康等多个领域，支持精准动作预测和未来状态预判，显著提升了机器人系统的智能化水平。

AI项目与工具 2025年06月12日 54 点赞 0 评论 732 浏览

ChatDZQ爱晚亭

基于大语言模型开发，提供“智能+个性微调+向量训练”（即CVP）服务，集成AI聊天、AI创作、AI绘画、AI海报及各种AI工具。

AI服务商 2025年06月05日 10 点赞 0 评论 732 浏览

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架，它结合了基于扩散的图像生成技术和多模态大型语言模型（MLLM）。该工具能够根据用户提供的文本提示和角色图像，生成具有高精度和视觉吸引力的黑白漫画面板，支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等，广泛应用于漫画创作、个性化内容生成、教育和培训等领

AI项目与工具 2025年06月12日 47 点赞 0 评论 732 浏览

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型，支持多模态输入并具备复杂任务执行能力。采用双系统架构，结合视觉-语言模型与扩散变换器，实现精准动作控制。基于大规模数据训练，适应多种机器人形态和任务场景，广泛应用于物流、制造、医疗等领域，提升自动化水平与操作效率。

AI项目与工具 2025年06月12日 62 点赞 0 评论 734 浏览

TokenFD

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI项目与工具 2025年06月12日 90 点赞 0 评论 735 浏览

Emotion

Emotion-LLaMA是一款基于多模态输入的情绪识别与推理模型，结合音频、视觉和文本信息，提升情感理解的准确性与可解释性。模型采用改进版LLaMA架构，通过指令调整增强情感处理能力，并依托自建的MERR数据集进行训练与验证。在多个挑战赛中表现优异，适用于人机交互、教育、心理健康、客户服务等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 85 点赞 0 评论 736 浏览

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 736 浏览

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集，包含约20万个多模态样本，涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力，并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量，适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 737 浏览

ManusAI

全球首款通用型AI智能体，ManusAI通过自主任务执行、动态任务拆解、多模态交互和跨平台执行等能力，帮助用户高效完成复杂任务。

Ai平台模型 2025年06月05日 95 点赞 0 评论 737 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期