视频理解 - 智狐AI导航

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 637 浏览

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集，包含500个第一人称视角视频，涵盖77种日常活动，支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务，测试模型对长时间视频内容的信息识别与综合能力，推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制，使其成为学术研究的重要工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 657 浏览

StreamBridge

StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架，支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略，实现长上下文处理与主动响应。项目配套发布Stream-IT数据集，包含60万样本，适用于多种视频理解任务，展现出在视频交互、自动驾驶、智能监控等领域的应用前景。

AI项目与工具 2025年06月11日 41 点赞 0 评论 678 浏览

VideoLLaMB

VideoLLaMB 是一个创新的长视频理解框架，通过引入记忆桥接层和递归记忆令牌来处理视频数据，确保在分析过程中不会丢失关键的视觉信息。该模型专为理解长时间视频内容而设计，能够保持语义上的连续性，并在多种任务中表现出色，例如视频问答、自我中心规划和流式字幕生成。VideoLLaMB 能够有效处理视频长度的增加，同时保持高性能和成本效益，适用于学术研究和实际应用。 ---

AI项目与工具 2025年06月12日 39 点赞 0 评论 744 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 751 浏览

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 784 浏览

Valley

Valley是一款由字节跳动开发的多模态大语言模型，擅长处理文本、图像和视频数据，广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能，支持灵活调整令牌数量，实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色，尤其在参数规模较小的情况下依然保持优异的成绩。

AI项目与工具 2025年06月12日 60 点赞 0 评论 787 浏览

浦语灵笔

浦语灵笔IXC-2.5是一款由上海人工智能实验室开发的多模态大模型，具备7B规模的大型语言模型后端，能够处理长上下文、超高分辨率图像和细粒度视频理解，支持多轮多图像对话。该模型可以自动生成网页代码和高质量图文内容，在多模态基准测试中表现出色，性能可与OpenAI的GPT-4V相媲美。

AI项目与工具 2025年06月12日 62 点赞 0 评论 812 浏览

InternVideo2.5

InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型，具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务，适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。

AI项目与工具 2025年06月12日 50 点赞 0 评论 827 浏览

视频理解

首页

视频理解

列表

默认

浏览次数

发布日期