TextHarmony

简介：TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI小编 762 阅读 0 评论 47 点赞

项目地址

TextHarmony是由华东师范大学与字节跳动联合研发的多模态生成模型，专注于视觉与文本信息的理解与生成。该模型基于Slide-LoRA技术，通过动态整合模态相关与非相关的LoRA专家，部分解耦多模态生成空间，从而实现在单一模型中高效协调视觉与语言的生成任务。TextHarmony在视觉和语言模态间实现了更一致的生成流程，并依托高质量图像字幕数据集DetailedTextCaps-100K，进一步提升了其视觉文本生成能力。

本文分类：AI项目与工具
本文标签：多模态生成 Slide-LoRA 视觉文本理解图像字幕 OCR VQA 文档分析场景文本识别图像编辑信息检索
浏览次数：762 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10752.html

评论列表共有 0 条评论

暂无评论

TextHarmony

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复