TextHarmony是由华东师范大学与字节跳动联合研发的多模态生成模型,专注于视觉与文本信息的理解与生成。该模型基于Slide-LoRA技术,通过动态整合模态相关与非相关的LoRA专家,部分解耦多模态生成空间,从而实现在单一模型中高效协调视觉与语言的生成任务。TextHarmony在视觉和语言模态间实现了更一致的生成流程,并依托高质量图像字幕数据集DetailedTextCaps-100K,进一步提升了其视觉文本生成能力。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部