多模态 - 智狐AI导航

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型，专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，实现对复杂视觉语言任务的高效处理，包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 35 点赞 0 评论 543 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 541 浏览

Claude 4 是 Anthropic 公司推出的新一代 AI 模型，包括 Claude Opus 4 和 Claude Sonnet 4。Claude Opus 4 擅长复杂任务和长时间运行的工作流，如代码生成、优化和调试，具有强大的推理能力。Claude Sonnet 4 在编程和推理上表现优异，适合日常使用。两者均支持工具使用、记忆管理、多模态处理等功能，提升 AI Agent 的效率与实

AI项目与工具 2025年06月11日 36 点赞 0 评论 541 浏览

ChatEDU

多模态教育工具，通过借助生成式 AI成为学生的 “第二大脑”。提供包括知识图谱、动态知识档案和任务型学习代理三大核心功能。

教育学习 2025年06月05日 10 点赞 0 评论 541 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 541 浏览

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统，支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型（Social VLA），可识别用户的多模态输入并生成相应响应，涵盖多种角色类型及互动场景，如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调，适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 541 浏览

云从科技从容大模型

云从科技从容大模型是一个多功能、跨行业的AI大模型，它通过集成云从科技的核心技术，为用户提供个性化、智能化的服务和解决方案。

创作工具 1970年01月01日 0 点赞 0 评论 540 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 540 浏览

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架，采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化，增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径，广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 538 浏览

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

创作工具 1970年01月01日 0 点赞 0 评论 538 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期