多模态 - 智狐AI导航

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准，用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题，涵盖26个子类别，支持多层次标注和细粒度异常注释，并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现，揭示了这些模型在合成数据检测任务中的优势与不足。

AI项目与工具 2025年06月12日 50 点赞 0 评论 795 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 798 浏览

通义千问AI大模型

通义千问大模型AI开放平台，覆盖语言、听觉、多模态等领域；致力于实现接近人类智慧的通用智能，让AI从“单一感官”到“五官全开”

Ai平台模型 2025年06月05日 18 点赞 0 评论 798 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 799 浏览

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型，具备强大的视觉链式推理能力，可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法，在多项基准测试中表现优异。模型开源，适用于教育、医疗、科研、内容审核等多个领域，推动多模态人工智能的发展。

AI项目与工具 2025年06月12日 80 点赞 0 评论 799 浏览

Wegic.ai

一款面向未来的 AI网页设计师，通过简单的聊天等多模态交互来完成网站的设计、修改和上线全流程。

Ai编程建站 2025年06月05日 24 点赞 0 评论 800 浏览

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 800 浏览

《Manus没有秘密》70页PPT解读AI Agent（PDF文件）

本文详细解读了AI Agent技术从L1到L3的发展历程，涵盖了定义、实现原理、用户体验及未来趋势。文章以Manus为例，探讨了Agent技术的通用性、技术实现路径及用户感知变化，强调了提升通用性、性能和用户体验的重要性。同时，文章提出了对未来发展的期望和建议。

AI项目与工具 2025年06月12日 45 点赞 0 评论 801 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 802 浏览

Amazon Nova是亚马逊云服务推出的一套强大的AI基础模型系列，涵盖文本、图像和视频生成等多个领域。其核心产品包括Amazon Nova Micro（专注文本处理）、Amazon Nova Lite（多模态低成本模型）、Amazon Nova Pro（多模态平衡型模型）、Amazon Nova Premier（复杂推理模型）、Amazon Nova Canvas（图像生成模型）和Amazon

AI项目与工具 2025年06月12日 74 点赞 0 评论 804 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期