多模态 - 智狐AI导航

华知大模型5.0

华知大模型5.0是一款由同方知网与华为云联合开发的多模态人工智能平台，支持文本、图像等多种数据类型的处理与生成。其核心功能包括AIGC检测、学术搜问、图表解读、论文选题、文献理解以及知识推荐等，广泛应用于科技创新、学术研究、科学决策及数据分析等领域，致力于提升工作效率并促进智能化发展。

AI项目与工具 2025年06月12日 33 点赞 0 评论 612 浏览

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架，可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性，显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点，适用于电影、游戏、虚拟现实等多个领域。

AI项目与工具 2025年06月12日 84 点赞 0 评论 610 浏览

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 610 浏览

Seer

Seer是一款由多家科研机构联合开发的端到端机器人操作模型，基于Transformer架构实现视觉预测与动作执行的高度协同。它能够融合多模态信息，具备强大的泛化能力和数据效率，在真实机器人任务中表现优异。Seer适用于工业自动化、服务机器人、医疗健康等多个领域，支持精准动作预测和未来状态预判，显著提升了机器人系统的智能化水平。

AI项目与工具 2025年06月12日 54 点赞 0 评论 607 浏览

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型，具备多模态处理能力，可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等，适用于多种办公场景。通过大规模预训练与混合训练策略，龙猫在实际应用中展现出高效、精准的特点，有效提升工作效率与创新能力。

AI项目与工具 2025年06月12日 70 点赞 0 评论 607 浏览

ChatDZQ爱晚亭

基于大语言模型开发，提供“智能+个性微调+向量训练”（即CVP）服务，集成AI聊天、AI创作、AI绘画、AI海报及各种AI工具。

AI服务商 2025年06月05日 10 点赞 0 评论 606 浏览

MMRole是一个由中国人民大学高瓴人工智能学院研究团队开发的多模态角色扮演智能体（MRPA）框架。该框架通过整合图像和文本，使智能体能够以特定角色进行更为自然和沉浸式的对话。MMRole框架包括一个大规模、高质量的多模态数据集和一个全面的评估方法，用于开发和评估MRPAs的性能。该框架为创建能够理解和生成与图像相关对话内容的智能体提供了新的可能，并扩展了其在教育、娱乐、客户服务、社交模拟和内容创

AI项目与工具 2025年06月12日 28 点赞 0 评论 605 浏览