内容理解 - 智狐AI导航

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型，基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题，适用于体育、新闻、教育等多个场景。模型采用流式训练方法，结合大规模数据集和Qwen2-VL架构，具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能，广泛应用于视频内容分析与智能交互场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 707 浏览

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型，结合了扩散模型与自回归模型的优势，具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略，提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 922 浏览

Morphik

Morphik是一款开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索，采用ColPali技术理解文档中的视觉内容，具备快速元数据提取功能，可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成，适用于技术文档处理、企业知识管理和智能应用开发等场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 707 浏览

360人工智能研究院

研发业界领先技术，追求产业落地价值

Ai科技公司 2026年07月31日 0 点赞 0 评论 462 浏览

内容理解

首页

内容理解

列表

默认

浏览次数

发布日期

LiveCC

GPDiT

Morphik

360人工智能研究院

内容理解 首页 内容理解

列表 默认 浏览次数 发布日期

LiveCC

GPDiT

Morphik

360人工智能研究院

内容理解

首页

内容理解

列表

默认

浏览次数

发布日期