Tarsier 字节跳动推出的一系列大规模视觉语言模型(LVLM),专注于视频理解任务,包括视频描述、问答、视频定位、幻觉测试等功能。 Ai开源项目 2025年06月05日 90 点赞 0 评论 243 浏览