TokenFD

简介：TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI小编 679 阅读 0 评论 90 点赞

项目地址

TokenFD是由上海交通大学与美团联合研发的细粒度图文对齐基础模型，专注于文档理解任务。该模型通过实现图像Token与语言Token在统一特征空间中的对齐，支持细粒度的图文交互，在处理包含大量文字的图像时表现出色。为训练该模型，研究团队构建了业内首个基于Token级对齐的数据集——TokenIT，涵盖2000万张图像和18亿高质量的Token-Mask对，数据规模远超现有模型。 TokenFD具备以下核心功能： - **细粒度图文对齐**：实现图像与文本在特征空间中的对齐，支持Token级别的交互。 - **提升多模态任务性能**：在文本分割、理解及检索等任务中，Zero-Shot性能显著提升。 - **基座适配与扩展性**：可作为其他多模态大模型的基础模块，无需额外训练即可优化性能，并衍生出TokenVL等新范式。 TokenFD采用BPE分词结合像素级掩码标注技术，将文本拆分为子词并精确映射到图像区域，实现更精准的文字语义理解。其训练依赖于自主研发的TokenIT数据集，涵盖多种文本图像类型，为模型提供了丰富的细粒度语义信息，使其在文档理解等领域表现优异。 - 项目官网：https://token-family.github.io/project_page/ - GitHub仓库：https://github.com/Token-family/TokenFD - HuggingFace模型库：https://huggingface.co/TongkunGuan/TokenFD - arXiv技术论文：https://arxiv.org/pdf/2503.02304 TokenFD适用于文档处理、图像安全审查、基于文字的图像检索以及知识增强的大模型应用。其细粒度图文对齐能力，使其在处理复杂结构图像、检测违规内容、支持任意文字输入的图像搜索等方面具有显著优势。

本文分类：AI项目与工具
本文标签：AI模型图文对齐文档理解多模态 TokenFD 数据集模型训练图像处理文字识别知识检索
浏览次数：679 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8428.html

评论列表共有 0 条评论

暂无评论

TokenFD

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复