StreamBridge是由苹果公司与复旦大学联合开发的端侧视频大语言模型(Video-LLMs)框架,旨在提升AI对直播流视频的实时理解能力。该框架采用内存缓冲区和轮次衰减压缩策略,支持长上下文交互,并引入轻量级激活模型实现主动响应功能。研究团队还发布了包含约60万个样本的Stream-IT数据集,用于优化流式视频理解能力。在多个主流离线模型上的测试表明,StreamBridge在多轮实时理解和主动响应方面表现出显著优势,具备广泛的应用潜力。
StreamBridge是由苹果公司与复旦大学联合开发的端侧视频大语言模型(Video-LLMs)框架,旨在提升AI对直播流视频的实时理解能力。该框架采用内存缓冲区和轮次衰减压缩策略,支持长上下文交互,并引入轻量级激活模型实现主动响应功能。研究团队还发布了包含约60万个样本的Stream-IT数据集,用于优化流式视频理解能力。在多个主流离线模型上的测试表明,StreamBridge在多轮实时理解和主动响应方面表现出显著优势,具备广泛的应用潜力。
发表评论 取消回复