Tarsier2简介

Tarsier2是由字节跳动开发的先进大规模视觉语言模型(LVLM),在视频理解任务中展现出卓越性能。该模型通过三大关键改进提升了效果:将预训练数据从1100万扩展至4000万视频-文本对,增强了数据多样性和丰富性;在监督微调阶段引入细粒度时间对齐技术;并通过模型采样构建偏好数据,结合直接偏好优化(DPO)进行训练。在DREAM-1K基准测试中,Tarsier2-7B的F1分数优于GPT-4o和Gemini-1.5-Pro,且在15个公共基准测试中均取得新纪录,涵盖视频问答、视频定位、幻觉检测及具身问答等任务。

Tarsier2的核心功能

  • 高质量视频描述生成:能够精准捕捉并描述视频中的动作、场景和情节。
  • 视频问答能力:具备强大的时空理解和推理能力,可回答具体视频相关问题。
  • 视频事件定位:支持识别视频中特定事件的发生时间,并实现多段定位。
  • 减少幻觉生成:通过优化训练策略,有效降低模型生成虚假信息的可能性。
  • 多语言支持:支持多种语言的视频描述生成,适应不同语言环境。

Tarsier2的技术架构

  • 大规模预训练数据:基于4000万视频-文本对进行预训练,涵盖短视频、影视解说等内容,提升模型泛化能力。
  • 细粒度时间对齐的监督微调(SFT):采用带有精确时间戳的标注数据进行微调,增强模型在视频描述任务中的准确性。
  • 直接偏好优化(DPO):通过模型自动生成正负样本对,优化生成内容以更符合人类偏好。

Tarsier2的项目资源

Tarsier2的应用领域

  • 视频内容描述:适用于生成详细视频摘要与描述。
  • 幻觉检测与减少:通过优化训练方法,提高输出内容的真实性。
  • 多语言视频处理:满足跨语言视频分析需求。
  • 具身智能问答:在具身智能系统中提供准确的视觉-语言交互支持。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部