UniToken

简介：UniToken 是一种面向多模态理解与生成任务的自回归模型，结合了离散与连续视觉表示，实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务，并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。

AI小编 497 阅读 0 评论 67 点赞

项目地址

UniToken 是什么

UniToken 是一种新型的自回归生成模型，专为多模态理解与生成任务而设计。通过融合离散和连续的视觉表示，构建了一个统一的视觉编码框架，能够同时捕捉图像的高层语义与低层细节。这使得 UniToken 在视觉理解和图像生成任务中表现出色，为多种任务提供全面的信息支持。

统一视觉编码：UniToken 采用连续和离散双编码器，结合 VQ-GAN 的离散编码与 SigLIP 的连续表征，生成兼具高层语义和底层细节的视觉编码。
多阶段训练
- 视觉语义空间对齐：基于 Chameleon 基座，冻结语言模型，仅训练 SigLIP ViT 和 Adapter，实现视觉与语言空间的对齐。
- 多任务联合训练：在大规模图文数据集上进行联合训练，提升模型在理解与生成任务上的性能。
- 指令强化微调：引入高质量多模态数据，增强模型对复杂指令的理解与执行能力。
细粒度视觉增强：支持 AnyRes 和 ViT 端到端微调，提升对高分辨率图像的感知能力，适应广泛任务场景。

暂无评论