语音

Coqui.ai

Coqui.ai 是一个语音技术的开源平台,Coqui.ai 通过生成式 AI 提供逼真、富有情感的文本转语音,它可以从 3 秒的音频中克隆任何声音并调整其风格、节奏和情感。

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵,包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色,蓝心语音大模型支持多语言,蓝心图像大模型融合了中国特色和东方美学,蓝心多模态大模型则提供了流畅的视频对话体验。

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型,支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎,能精准捕捉语音中的语调、节奏和情感,生成自然流畅的面部表情和动作。操作简单,无需专业技能,适用于多种角色形象,涵盖社交媒体、企业营销、在线教育等多个领域,是高效内容创作的理想选择。

Sonix

一个自动转录、翻译和字幕平台,快速、准确、实惠。它可以将音频和视频转换为文本,利用其先进的自动翻译引擎在几分钟内翻译文本,并创建全自动字幕

Voice Engine

Voice Engine是由OpenAI开发的AI语音合成和声音克隆技术。该技术能够通过15秒的音频样本和文本输入生成自然语音。它已在OpenAI的文本到语音API和ChatGPT的语音功能中应用。Voice Engine广泛应用于教育、翻译、远程服务提供、支持言语残障者以及帮助恢复患者声音等方面。为了确保技术安全,OpenAI实施了严格的使用政策和安全措施。

DreamActor

DreamActor-M1是字节跳动推出的AI图像动画框架,能够将静态照片转化为高质量动态视频。其核心在于混合引导机制,结合隐式面部表示、3D头球和身体骨架,实现对表情和动作的精准控制。支持多语言语音驱动、口型同步、灵活运动转移及多样化风格适配,适用于虚拟角色创作、个性化动画生成、虚拟主播制作及创意广告等领域,具备高保真、强连贯性和广泛适用性。

优雅YOYA

优雅(YOYA)是中科闻歌推出的多模态文生视频平台,基于大语言模型和多模态技术,支持从脚本生成到视频剪辑的全流程自动化。用户仅需输入主题,即可快速生成高质量视频,并支持语音克隆、口型翻译、数字人等功能。平台还具备多模态素材智能剪辑能力,提升创作效率与可控性,适用于媒体、影视、企业宣传及教育等领域。

Gliglish

Gliglish 是一款基于 AI 技术的口语学习平台,通过语音识别和自然语言处理技术,模拟真实对话场景,帮助用户提升口语和听力能力。支持多语言学习,包括英语、中文、日语、韩语、德语、法语等,并提供即时语法和发音反馈。用户可调节对话速度,实现个性化学习。此外,Gliglish 支持多语言语音输入和输出,适合语言初学者及需要强化特定语言技能的学习者。

SeedFoley

SeedFoley 是由字节跳动开发的端到端视频音效生成模型,能智能识别并生成与视频内容高度同步的动作和环境音效。通过融合视频时空特征与扩散生成技术,提升音效的准确性和细腻度,支持多种视频长度,适用于生活Vlog、短片制作、游戏视频等多种场景,显著提升视频的沉浸感和表现力。

Fish Speech

Fish Speech是一款开源的文本到语音(TTS)工具,支持中文、英文和日文。它通过大约15万小时的多语种数据训练,实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求(仅需4GB)、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型,如VITS2、Bert-VITS2等,适用于智能助手、自动客服、语言学习等多个领域。