视频

MAGI

MAGI-1是一款由Sand AI开发的开源视频生成大模型,采用自回归架构,支持高效、高质量的视频生成,具备高分辨率输出、无限扩展能力和可控生成特性。适用于内容创作、影视制作、游戏开发等多个领域,技术上融合了自回归去噪、Transformer VAE、扩散模型等创新方法,提升生成效率与稳定性。

AvatarFX

AvatarFX是由Character.AI开发的AI视频生成工具,通过上传图片和选择语音,可生成角色说话、唱歌和表达情感的动态视频。支持多角色、多轮对话及长视频生成,具备高时间一致性。采用扩散模型与音频条件化技术,确保动作与语音同步。适用于互动故事、虚拟直播、娱乐表演及教育内容创作,提供高效、高质量的视频生成体验。

灵格AI英语

灵格AI英语是一款基于AI技术的英语学习工具,提供视频学习、AI导师互动、发音纠正、场景对话练习等功能,帮助用户提升听说能力。平台支持个性化学习路径,涵盖日常口语、知识学习、考试备考等多场景应用,适合不同需求的学习者使用。

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。

A2E

A2E是一款基于AI技术的数字人视频创作平台,支持通过照片、视频或文本生成高度逼真的虚拟形象,具备声音克隆、多语言翻译、视频生成及形象换脸等功能。适用于内容创作、教育、营销等多个领域,帮助用户降低创作门槛,提升内容效率与表现力。

Hummingbird

Hummingbird-0 是一款基于深度学习的 AI 口型同步工具,支持零样本学习,无需额外训练即可快速生成高质量口型同步视频。它兼容多种格式,支持最长 5 分钟视频处理,1 分钟内生成 10 秒视频,适用于影视制作、广告、本地化翻译及 AI 内容创作等场景。通过多模态融合技术,实现音频与视频的精准匹配,提升内容表现力。

LiveCC

LiveCC是一款由新加坡国立大学Show Lab与字节跳动联合开发的实时视频解说模型,基于自动语音识别字幕进行训练。它能够实时生成自然流畅的视频评论和回答相关问题,适用于体育、新闻、教育等多个场景。模型采用流式训练方法,结合大规模数据集和Qwen2-VL架构,具备低延迟和高质量的生成能力。LiveCC通过LiveSports-3K基准测试评估性能,广泛应用于视频内容分析与智能交互场景。

BoomCut

BoomCut是小影科技推出的AI视频本地化工具,支持视频换脸、多语言口播、字幕翻译、声音克隆及字幕擦除等功能,适用于跨境营销和多语言内容制作。用户可通过简单操作生成高质量视频,降低制作成本,提升内容传播效率。适用于广告投放、市场拓展及个性化营销场景。

Drimo

Drimo 是一款面向影视、广告及 AI 视频创作者的智能创作工具,具备剧本生成、剧情构思、角色设定、分镜设计、故事板生成和影片生成等功能。它简化了影视制作流程,降低了专业门槛,适用于创意策划、广告脚本、短片制作及教学视频等多个场景,帮助用户高效完成内容创作。