音频

Reecho

通过Reecho在数秒内克隆任意声音,并创建与真人近乎无异的、极具表现力的文本配音。

Memo AI

Memo AI 是一款AI 驱动的视频、播客转文字工具。

ChatAnyone

ChatAnyone是阿里巴巴通义实验室开发的实时风格化肖像视频生成工具,基于音频输入生成高保真、自然流畅的上半身动态视频。采用分层运动扩散模型和混合控制融合生成模型,支持实时交互与风格化控制,适用于虚拟主播、视频会议、内容创作等多种场景,具备高度可扩展性和实用性。

Koolio.Ai

koolio.ai 是一个基于 Web 平台,可让您在几分钟内将一个概念变成一个完整的播客。

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型,拥有约 70 亿参数,支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能,适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术,结合多阶段训练与优化策略,提升生成效率与质量,兼顾性能与成本效益。

MyEdit

一款在线图片编辑和音频剪辑工具,用户可以使用AI照片编辑器来增强照片、去除人物和文字,甚至生成图像和场景。还提供强大的音频编辑工具,包括文本转语音、语音转文本和背景噪音去除功能。

EchoMimicV2

EchoMimicV2是一款由阿里巴巴蚂蚁集团研发的AI数字人动画生成工具,能够基于参考图片、音频剪辑及手部姿势序列生成高质量的半身动画视频。它支持多语言(中英双语)输入,并通过音频-姿势动态协调、头部局部注意力及特定阶段去噪损失等技术手段显著提高了动画的真实度与细节表现力,适用于虚拟主播、在线教育、娱乐游戏等多个领域。

SPLASH

将音乐制作的乐趣带给每个人。

Emote Portrait Alive

阿里巴巴发布的EMO,一种音频驱动的AI肖像视频生成框架。通过输入单一的参考图像和语音音频,Emote Portrait Alive可以生成动态的、表情丰富的肖像视频。