TTS-Voice-Wizard TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100... Ai语音工具 1970年01月01日 0 点赞 0 评论 670 浏览
KeySync KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。 AI项目与工具 2025年06月11日 32 点赞 0 评论 669 浏览
音鹿 音鹿是一款基于AI技术的音频编辑工具,主要功能包括文字转语音、音色选择、AI翻唱及音频编辑(剪切、合并、混音、音量调节、变速变调)。该工具内置大量音色模型,支持实时预览与参数调整,广泛适用于社交媒体、广告宣传、教育培训等领域,帮助用户高效完成音频创作。 AI项目与工具 2025年06月12日 73 点赞 0 评论 669 浏览
AI绘画箱 AI绘画箱收录近千个AI绘画工具网站,提供Midjourney、Stable Diffusion等一站式AI绘画工具、AI图片处理工具、AI素材下载、AI视频音频等工具,只做最好的AI绘画工具网址导航站。 Ai学习资源 2025年06月05日 16 点赞 0 评论 669 浏览
OmniAudio OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。 AI项目与工具 2025年06月12日 95 点赞 0 评论 663 浏览
INFP INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。 AI项目与工具 2025年06月12日 62 点赞 0 评论 662 浏览
Hallo Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究团队共同开发的一种基于人工智能的肖像图像动画技术。该技术通过分层音频驱动视觉合成、端到端扩散模型、交叉注意力机制、UNet去噪器、时间对齐技术和参考网络等方法,实现了音频与视觉输出的高精度同步。Hallo具备音频同步动画、面部表情生成、头部姿态控制、个性化动画定制、时间一致性维护以及动作多样性等主要功能,显著提升了视频动画的真实感 AI项目与工具 2025年06月12日 15 点赞 0 评论 661 浏览
SeeMuseums SeeMuseums 是一款基于AI的智能导览工具,支持多语言、智能推荐和AI音频讲解,帮助用户个性化探索博物馆内容。用户可通过提问获取详细解读,记录笔记并保存收藏,适用于艺术学习、文化探索和教育辅助等多种场景,提升参观体验与知识获取效率。 AI项目与工具 2025年06月11日 71 点赞 0 评论 661 浏览
Wavtool Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。 AI项目与工具 2025年06月12日 20 点赞 0 评论 660 浏览