视频分析
书生·万象InternVL 2.5
书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。
InternVideo2.5
InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。
日日新SenseNova V6
日日新SenseNova V6是商汤科技推出的第六代多模态大模型,基于6000亿参数架构,支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力,适用于视频分析、教育辅导、智能客服、具身智能等多个领域,提升交互体验与内容处理效率。
StreamBridge
StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架,支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略,实现长上下文处理与主动响应。项目配套发布Stream-IT数据集,包含60万样本,适用于多种视频理解任务,展现出在视频交互、自动驾驶、智能监控等领域的应用前景。