多模态 - 智狐AI导航

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型，具备7B规模的大型语言模型后端，能够处理长上下文、超高分辨率图像和细粒度视频理解，支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容，在多模态基准测试中表现出色，性能可与OpenAI的GPT-4V相媲美。

AI项目与工具 2025年06月12日 62 点赞 0 评论 715 浏览

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 715 浏览

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型，具备强大的视觉链式推理能力，可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法，在多项基准测试中表现优异。模型开源，适用于教育、医疗、科研、内容审核等多个领域，推动多模态人工智能的发展。

AI项目与工具 2025年06月12日 80 点赞 0 评论 715 浏览

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架，涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域，包含1,130个问题，每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标，全面衡量模型推理能力，并揭示当前模型在反思机制和感知任务上的不足，为模型优化和研究提供重要参考。

AI项目与工具 2025年06月12日 36 点赞 0 评论 714 浏览

海螺视频APP

海螺视频APP是一款基于AI技术的视频生成工具，支持文生视频和图生视频功能，提供丰富的镜头控制选项，让用户能像专业导演一样创作动态视频。该工具适用于多种场景，如社交媒体、广告营销、影视制作等，操作简便，适合各类用户使用。

AI项目与工具 2025年06月12日 21 点赞 0 评论 714 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 713 浏览

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具，支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型（CFM）和 Vocoder，实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率，并提供快速与高音质两种推理模式，适用于音乐创作、音频处理及个性化音乐生成等场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 712 浏览

Wegic.ai

一款面向未来的 AI网页设计师，通过简单的聊天等多模态交互来完成网站的设计、修改和上线全流程。

Ai编程建站 2025年06月05日 24 点赞 0 评论 712 浏览

西鲸AI

一个集成了几十款大模型的平台，西鲸AI免费提供文生文大模型的使用，支持midjourney、Dall-E、SD，以及RAG知识库功能。

AI写作对话 2025年06月05日 27 点赞 0 评论 712 浏览

通义千问AI大模型

通义千问大模型AI开放平台，覆盖语言、听觉、多模态等领域；致力于实现接近人类智慧的通用智能，让AI从“单一感官”到“五官全开”

Ai平台模型 2025年06月05日 18 点赞 0 评论 710 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期