多模态
FakeShield
FakeShield是一款由北京大学研发的多模态大型语言模型框架,主要用于检测和定位图像篡改。它通过结合视觉与文本信息,生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块,支持多种篡改技术的分析,具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。
TextHarmony
TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型,擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术,支持视觉文本生成、编辑、理解及感知等功能,广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练,TextHarmony在视觉与语言生成任务中表现出色。