VQA - 智狐AI导航

ENEL

ENEL是一种无编码器架构的3D大型多模态模型，通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略，在3D对象分类、字幕生成和视觉问答等任务中表现出色，性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 758 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 871 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 762 浏览

VQA

首页

VQA

列表

默认

浏览次数

发布日期

ENEL

VQAScore

TextHarmony

VQA 首页 VQA

列表 默认 浏览次数 发布日期

ENEL

VQAScore

TextHarmony

VQA

首页

VQA

列表

默认

浏览次数

发布日期