TokenFD是由上海交通大学与美团联合研发的细粒度图文对齐基础模型,专注于文档理解任务。该模型通过实现图像Token与语言Token在统一特征空间中的对齐,支持细粒度的图文交互,在处理包含大量文字的图像时表现出色。为训练该模型,研究团队构建了业内首个基于Token级对齐的数据集——TokenIT,涵盖2000万张图像和18亿高质量的Token-Mask对,数据规模远超现有模型。 TokenFD具备以下核心功能: - **细粒度图文对齐**:实现图像与文本在特征空间中的对齐,支持Token级别的交互。 - **提升多模态任务性能**:在文本分割、理解及检索等任务中,Zero-Shot性能显著提升。 - **基座适配与扩展性**:可作为其他多模态大模型的基础模块,无需额外训练即可优化性能,并衍生出TokenVL等新范式。 TokenFD采用BPE分词结合像素级掩码标注技术,将文本拆分为子词并精确映射到图像区域,实现更精准的文字语义理解。其训练依赖于自主研发的TokenIT数据集,涵盖多种文本图像类型,为模型提供了丰富的细粒度语义信息,使其在文档理解等领域表现优异。 - 项目官网:https://token-family.github.io/project_page/ - GitHub仓库:https://github.com/Token-family/TokenFD - HuggingFace模型库:https://huggingface.co/TongkunGuan/TokenFD - arXiv技术论文:https://arxiv.org/pdf/2503.02304 TokenFD适用于文档处理、图像安全审查、基于文字的图像检索以及知识增强的大模型应用。其细粒度图文对齐能力,使其在处理复杂结构图像、检测违规内容、支持任意文字输入的图像搜索等方面具有显著优势。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部