音频

AbletonMCP

AbletonMCP 是一个开源工具,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现音乐制作过程中的 AI 辅助。支持双向通信,允许用户通过 AI 创建和编辑 MIDI 与音频轨道、选择乐器和效果、控制播放等。技术上采用 JSON 协议和套接字通信,适用于音乐创作、实时制作、教学及音频后期处理等多种场景。

妙构

妙构是一款基于AI技术的视频内容分析工具,能够从视觉、音频和创意结构等多个维度对视频进行深度解析,提供专业的优化建议。其功能包括趋势分析、案例学习、智能反馈等,适用于视频创作者、内容策划及营销人员,帮助提升视频质量与传播效果。

BiliNote

BiliNote 是一款开源 AI 视频笔记工具,支持从多个平台导入视频链接并生成结构化的 Markdown 笔记。具备音频转写、大模型总结、截图插入、内容跳转链接等功能,适用于学习、创作、培训等场景。采用 FastAPI 和 React 技术栈,支持 Docker 部署,便于用户快速集成与使用。

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型,拥有约 70 亿参数,支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能,适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术,结合多阶段训练与优化策略,提升生成效率与质量,兼顾性能与成本效益。

Pollinations.AI

Pollinations.AI是一个开源AI内容生成平台,提供图像生成、文本生成、音频转换及视觉分析等功能。用户无需注册即可使用,支持多种模型和参数配置,适合开发者和创作者快速集成与应用。平台还提供浏览器开发环境,简化了使用流程,提升了效率。

OpenUtau

OpenUtau 是一款开源的歌声合成工具,支持 UTAU 音源库和 VSQX 格式,具备音素编辑、颤音控制、多语言界面等功能,适用于音乐创作与虚拟歌手合成。它兼容 Windows、macOS 和 Linux,提供预渲染与实时预览,提升创作效率,适合音乐人、开发者及音频爱好者使用。

AvatarFX

AvatarFX是由Character.AI开发的AI视频生成工具,通过上传图片和选择语音,可生成角色说话、唱歌和表达情感的动态视频。支持多角色、多轮对话及长视频生成,具备高时间一致性。采用扩散模型与音频条件化技术,确保动作与语音同步。适用于互动故事、虚拟直播、娱乐表演及教育内容创作,提供高效、高质量的视频生成体验。

Lyria 2

Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音乐生成模型,支持高保真音频输出与多种音乐风格生成,具备实时创作、文本驱动创作及音频编辑功能。结合扩散模型与 GAN 技术,实现风格解耦与动态调整,适用于音乐制作、影视配乐、广告音乐等场景。集成于 Music AI Sandbox,提供模块化工具链,降低创作门槛,并嵌入数字水印技术以确保内容可识别性。

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。

KeySync

KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。