MMBench-Video是由浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合研发的新型长视频多题问答基准测试平台。该平台专注于评估大型视觉语言模型(LVLMs)在视频理解领域的综合能力,通过引入包含丰富内容和细粒度能力评估的长视频,有效弥补了现有基准测试在时序理解和复杂任务处理方面的局限性。MMBench-Video涵盖了来自YouTube的约600个视频片段,涉及16个主要类别,每个片段时长介于30秒至6分钟之间,并附有由志愿者精心编写的高质量问答对。为了确保评估的准确性和一致性,该基准测试采用GPT-4进行自动化评估。MMBench-Video的推出为研究人员提供了强有力的工具,用于评估和改进视频语言模型的性能。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部