TokenFD是由上海交通大学与美团联合研发的细粒度图文对齐基础模型,专注于文档理解任务。该模型通过实现图像Token与语言Token在统一特征空间中的对齐,支持细粒度的图文交互,在处理包含大量文字的图像时表现出色。为训练该模型,研究团队构建了业内首个基于Token级对齐的数据集——TokenIT,涵盖2000万张图像和18亿高质量的Token-Mask对,数据规模远超现有模型。
TokenFD具备以下核心功能:
- **细粒度图文对齐**:实现图像与文本在特征空间中的对齐,支持Token级别的交互。
- **提升多模态任务性能**:在文本分割、理解及检索等任务中,Zero-Shot性能显著提升。
- **基座适配与扩展性**:可作为其他多模态大模型的基础模块,无需额外训练即可优化性能,并衍生出TokenVL等新范式。
TokenFD采用BPE分词结合像素级掩码标注技术,将文本拆分为子词并精确映射到图像区域,实现更精准的文字语义理解。其训练依赖于自主研发的TokenIT数据集,涵盖多种文本图像类型,为模型提供了丰富的细粒度语义信息,使其在文档理解等领域表现优异。
- 项目官网:https://token-family.github.io/project_page/
- GitHub仓库:https://github.com/Token-family/TokenFD
- HuggingFace模型库:https://huggingface.co/TongkunGuan/TokenFD
- arXiv技术论文:https://arxiv.org/pdf/2503.02304
TokenFD适用于文档处理、图像安全审查、基于文字的图像检索以及知识增强的大模型应用。其细粒度图文对齐能力,使其在处理复杂结构图像、检测违规内容、支持任意文字输入的图像搜索等方面具有显著优势。
发表评论 取消回复