长视频理解

VideoLLaMB

VideoLLaMB 是一个创新的长视频理解框架，通过引入记忆桥接层和递归记忆令牌来处理视频数据，确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计，能够保持语义上的连续性，并在多种任务中表现出色，例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加，同时保持高性能和成本效益，适用于学术研究和实际应用。 ---

AI项目与工具 2025年06月12日 39 点赞 0 评论 861 浏览

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具，其核心在于时空自适应压缩机制，可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析，实现了对冗余帧的剔除及帧特征的选择性降低，并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频，适用于视频内容分析、搜索索引、生成描述等多种应用场景。

AI项目与工具 2025年06月12日 65 点赞 0 评论 698 浏览

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集，包含500个第一人称视角视频，涵盖77种日常活动，支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务，测试模型对长时间视频内容的信息识别与综合能力，推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制，使其成为学术研究的重要工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 799 浏览

长视频理解

首页

长视频理解

列表

默认

浏览次数

发布日期

VideoLLaMB

LongVU

HourVideo

长视频理解 首页 长视频理解

列表 默认 浏览次数 发布日期

VideoLLaMB

LongVU

HourVideo

长视频理解

首页

长视频理解

列表

默认

浏览次数

发布日期