语音 - 智狐AI导航

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 688 浏览

FilmAgent

FilmAgent是一款由哈尔滨工业大学（深圳）研发的虚拟电影制作工具，基于多智能体协作框架，实现从剧本创作到镜头拍摄的全流程自动化。支持剧本生成、多智能体协作、镜头规划、语音合成等功能，适用于创意视频制作、影视教学及虚拟场景应用。系统在Unity 3D环境中运行，提升电影制作效率与创意表达能力。

AI项目与工具 2025年06月12日 31 点赞 0 评论 689 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 689 浏览

LiSTNR

Listnr是一个人工智能语音生成器和文本到语音的在线工具，允许用户从142种不同语言的900多个声音的文本创建逼真的画外音。

创作工具 2026年06月10日 0 点赞 0 评论 689 浏览

SadTalker是一个由西安交通大学、腾讯AI实验室和蚂蚁集团合作开发的开源AI数字人项目。该工具利用单张人脸图像和语音音频，通过3D运动系数生成逼真的说话人脸动画。它通过ExpNet精确学习面部表情，PoseVAE合成不同风格的头部运动，并采用3D面部渲染技术，实现高质量、风格化的视频动画。SadTalker还具备多语言支持和多模态学习能力，适用于虚拟助手、视频制作、语言学习、社交媒体和教育等

AI项目与工具 2025年06月12日 71 点赞 0 评论 690 浏览

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架，采用多智能体协作机制，模拟真实脱口秀场景，自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能，并提供多语言支持和完整播客结构生成能力。同时，PodAgent引入评估指标，确保内容的专业性与多样性，适用于媒体、教育、企业推广等多个领域。

AI项目与工具 2025年06月12日 87 点赞 0 评论 690 浏览

voice.ai

voice.ai的使命是通过普及人工智能技术，增强协作创造力，并允许社区重新定义音频表达方式。公司相信人工智能应该是易于接近、对所有人开放且富有趣味的。

创作工具 2026年06月10日 0 点赞 0 评论 690 浏览

kokoroTTS

一款开源、高性能的文本转语音（TTS）模型，Kokoro TTS拥有8200万参数，基于StyleTTS 2架构，提供高质量、自然的语音合成，适用于有声书、播客等。

Ai语音工具 2025年06月05日 80 点赞 0 评论 691 浏览

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术，帮助用户基于语音转文字的结果，选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面，以及支持多段剪辑和自动生成SRT字幕文件。

AI项目与工具 2024年07月01日 55 点赞 0 评论 691 浏览

Spiritme AI

一款AI视频平台，可以让用户通过数字化化身生成个性化视频。该平台利用人工智能技术，帮助用户轻松创建独特和引人入胜的视频。

Ai视频生成 2025年06月05日 30 点赞 0 评论 691 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期