视频分析 - 智狐AI导航

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 528 浏览

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型，具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法，提升语言与视觉理解效率，并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署，适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 501 浏览

妙构

妙构是一款基于AI技术的视频内容分析工具，能够从视觉、音频和创意结构等多个维度对视频进行深度解析，提供专业的优化建议。其功能包括趋势分析、案例学习、智能反馈等，适用于视频创作者、内容策划及营销人员，帮助提升视频质量与传播效果。

AI项目与工具 2025年06月11日 86 点赞 0 评论 492 浏览

VideoRAG

VideoRAG是一种基于检索增强生成（RAG）技术的工具，旨在提升长视频的理解能力。它通过提取视频中的多模态信息（如OCR、ASR和对象检测），并将其与视频帧和用户查询结合，增强大型视频语言模型的处理效果。该技术轻量高效，易于集成，适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 468 浏览

鲲云科技

下一代人工智能计算平台

创作工具 1970年01月01日 0 点赞 0 评论 464 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 456 浏览

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型，专注于长上下文多模态学习，具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B，但性能接近更大模型。采用信息优先采样和渐进式后训练策略，提升模型稳定性与适应性。支持多样任务，适用于视频分析、图像处理、内容创作及教育等多个领域。

AI项目与工具 2025年06月11日 59 点赞 0 评论 439 浏览

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型，支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构，结合先进视觉编码器与语言生成能力，具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景，提供多种参数版本，支持灵活部署。

AI项目与工具 2025年06月12日 87 点赞 0 评论 416 浏览

视频分析

首页

视频分析

列表

默认

浏览次数

发布日期