音频 - 智狐AI导航

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架，可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模，实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域，提升虚拟角色表现力与交互自然度。

AI项目与工具 2025年06月12日 13 点赞 0 评论 657 浏览

voice.ai

voice.ai的使命是通过普及人工智能技术，增强协作创造力，并允许社区重新定义音频表达方式。公司相信人工智能应该是易于接近、对所有人开放且富有趣味的。

创作工具 1970年01月01日 0 点赞 0 评论 657 浏览

蓝藻AI

运用了尖端的创造性人工智能技术，致力于向用户提供流畅的自然语言处理与生成服务。这涵盖了从文字到语音的转换、语音辨识以及对话管理等多项功能。

创作工具 1970年01月01日 0 点赞 0 评论 658 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 658 浏览

Wavtool

Wavtool 是一款基于浏览器的 AI 音频创作平台，支持录制、编曲、混音和导出音乐，提供 AI 辅助创作功能，支持多轨处理及高级合成工具。用户可通过浏览器直接操作，无需安装软件，适合音乐爱好者、专业人士及教育用途。

AI项目与工具 2025年06月12日 20 点赞 0 评论 660 浏览

INFP

INFP是一款基于音频驱动的头部生成框架，专为双人对话设计，具备自动角色转换功能。它通过两个阶段实现头部生成：基于动作的头部模仿和音频引导的动作生成。同时，INFP提出了大规模双人对话数据集DyConv，推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景，支持实时互动并可调节生成风格。

AI项目与工具 2025年06月12日 62 点赞 0 评论 661 浏览

Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究团队共同开发的一种基于人工智能的肖像图像动画技术。该技术通过分层音频驱动视觉合成、端到端扩散模型、交叉注意力机制、UNet去噪器、时间对齐技术和参考网络等方法，实现了音频与视觉输出的高精度同步。Hallo具备音频同步动画、面部表情生成、头部姿态控制、个性化动画定制、时间一致性维护以及动作多样性等主要功能，显著提升了视频动画的真实感

AI项目与工具 2025年06月12日 15 点赞 0 评论 661 浏览

SeeMuseums

SeeMuseums 是一款基于AI的智能导览工具，支持多语言、智能推荐和AI音频讲解，帮助用户个性化探索博物馆内容。用户可通过提问获取详细解读，记录笔记并保存收藏，适用于艺术学习、文化探索和教育辅助等多种场景，提升参观体验与知识获取效率。

AI项目与工具 2025年06月11日 71 点赞 0 评论 661 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 663 浏览

Aiva.ai

我们的使命是通过使用 AI 创建个性化配乐来增强个人能力

创作工具 1970年01月01日 0 点赞 0 评论 666 浏览

音频

首页

音频

列表

默认

浏览次数

发布日期