音频 - 智狐AI导航

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 799 浏览

OpenCut

一款智能音视频剪辑工具，具备去水印、视频转GIF、音频提取、人声分离、图片修复等强大功能。

视频剪辑 2025年06月05日 94 点赞 0 评论 801 浏览

MusicFX DJ

MusicFX DJ是一款由Google DeepMind开发的人工智能音乐生成工具，利用实时文本提示生成多样化音乐作品。它支持多提示词混合、风格精细调控、乐器编排以及高质量音频输出等功能，适用于个人创作、现场表演、音乐教育及社交媒体内容制作等多个场景，为音乐爱好者和专业人士提供便捷高效的创意工具。

AI项目与工具 2025年06月12日 30 点赞 0 评论 802 浏览

Bark

Bark是一款开源的文本到音频转换模型，由Suno AI开发，能够生成逼真的多语言语音及多种音频类型，包括音乐和背景噪音，并支持非语言交流的声音。该模型提供预训练模型，适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

AI项目与工具 2025年06月12日 28 点赞 0 评论 802 浏览

配音神器PRO

配音神器官网_文字转语音神器_配音神器pro_语音合成软件_专业配音神器_AI配音神器

创作工具 1970年01月01日 0 点赞 0 评论 805 浏览

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具，支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型（CFM）和 Vocoder，实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率，并提供快速与高音质两种推理模式，适用于音乐创作、音频处理及个性化音乐生成等场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 806 浏览

sCM

sCM是一种由OpenAI开发的基于扩散模型的连续时间一致性模型，通过简化理论框架与优化采样流程，实现了图像生成速度的大幅提升。该模型仅需两步采样即可生成高质量图像，且速度比传统扩散模型快50倍。得益于连续时间框架和多项技术改进，sCM不仅提高了训练稳定性，还提升了生成质量。其应用场景广泛，包括视频生成、3D建模、音频处理及跨媒介内容创作，适用于艺术设计、游戏开发、影视制作等多个行业。

AI项目与工具 2025年06月12日 50 点赞 0 评论 816 浏览

Whisper

Whisper是一个开源的自动语音识别系统，经过68万小时的多语言和多任务监督数据训练

Ai语音工具 1970年01月01日 0 点赞 0 评论 817 浏览

CapCut

CapCut是一款由抖音开发的免费视频编辑软件，支持视频剪辑、音频编辑、字幕生成、滤镜应用及转场效果等多种功能。该软件界面友好，易于学习，适用于初学者和专业人士。它不仅可以在移动设备上使用，还支持PC端，便于用户跨平台编辑和分享视频。CapCut广泛应用于社交媒体内容创作、商业宣传、教育和培训以及个人项目。

AI项目与工具 2025年06月12日 24 点赞 0 评论 821 浏览

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架，通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块：Audio2Lmk模块将音频转换为2D面部标记点，而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称，能够精确捕捉面部表情和嘴唇动作。

AI项目与工具 2025年06月12日 68 点赞 0 评论 823 浏览

音频

首页

音频

列表

默认

浏览次数

发布日期