Tarsier2

简介：Tarsier2是字节跳动研发的大规模视觉语言模型，擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化（DPO）。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩，支持多语言处理，具有广泛的应用潜力。

AI小编 313 阅读 0 评论 59 点赞

项目地址

Tarsier2简介

Tarsier2是由字节跳动开发的先进大规模视觉语言模型（LVLM），在视频理解任务中展现出卓越性能。该模型通过三大关键改进提升了效果：将预训练数据从1100万扩展至4000万视频-文本对，增强了数据多样性和丰富性；在监督微调阶段引入细粒度时间对齐技术；并通过模型采样构建偏好数据，结合直接偏好优化（DPO）进行训练。在DREAM-1K基准测试中，Tarsier2-7B的F1分数优于GPT-4o和Gemini-1.5-Pro，且在15个公共基准测试中均取得新纪录，涵盖视频问答、视频定位、幻觉检测及具身问答等任务。

Tarsier2的核心功能

高质量视频描述生成：能够精准捕捉并描述视频中的动作、场景和情节。
视频问答能力：具备强大的时空理解和推理能力，可回答具体视频相关问题。
视频事件定位：支持识别视频中特定事件的发生时间，并实现多段定位。
减少幻觉生成：通过优化训练策略，有效降低模型生成虚假信息的可能性。
多语言支持：支持多种语言的视频描述生成，适应不同语言环境。

Tarsier2的技术架构

大规模预训练数据：基于4000万视频-文本对进行预训练，涵盖短视频、影视解说等内容，提升模型泛化能力。
细粒度时间对齐的监督微调（SFT）：采用带有精确时间戳的标注数据进行微调，增强模型在视频描述任务中的准确性。
直接偏好优化（DPO）：通过模型自动生成正负样本对，优化生成内容以更符合人类偏好。

Tarsier2的项目资源

GitHub仓库：https://github.com/bytedance/tarsier
arXiv技术论文：https://arxiv.org/pdf/2501.07888

Tarsier2的应用领域

视频内容描述：适用于生成详细视频摘要与描述。
幻觉检测与减少：通过优化训练方法，提高输出内容的真实性。
多语言视频处理：满足跨语言视频分析需求。
具身智能问答：在具身智能系统中提供准确的视觉-语言交互支持。

本文分类：AI项目与工具
本文标签：AI模型视频理解大规模预训练视觉语言模型时间对齐直接偏好优化幻觉检测多语言支持具身问答视频描述
浏览次数：313 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9273.html

评论列表共有 0 条评论

暂无评论