ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是一种创新的无编码器3D大型多模态模型(3D LMM),旨在克服传统编码器架构在3D理解任务中的局限性。该模型通过去除3D编码器,直接将点云数据转换为离散的点标记,并与文本标记拼接后输入到大型语言模型(LLM)中。其核心策略包括基于LLM嵌入的语义编码方法和分层几何聚合机制,以实现高效的语义表达和几何结构理解。 ENEL-7B模型在多个3D任务中表现出色,如3D对象分类、字幕生成和视觉问答(VQA)。在Objaverse基准测试中,其字幕生成任务GPT得分为50.92%,分类任务得分为55.0%,在3D MM-Vet数据集的VQA任务中达到42.7%,性能与13B模型相当。ENEL的无编码器架构在语义对齐方面表现优异,能够更准确地捕捉点云与文本之间的关联性。 项目已开源,可通过GitHub获取代码和相关技术论文,便于研究与应用扩展。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部