语音 - 智狐AI导航

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架，采用多智能体协作机制，模拟真实脱口秀场景，自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能，并提供多语言支持和完整播客结构生成能力。同时，PodAgent引入评估指标，确保内容的专业性与多样性，适用于媒体、教育、企业推广等多个领域。

AI项目与工具 2025年06月12日 87 点赞 0 评论 689 浏览

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具，支持超过 450 种语音选项，涵盖多种语言和风格。通过 Magic Dust AI 技术，实现快速语音克隆与高质量输出，降低训练成本。提供 API 接口，便于开发集成，适用于播客、广告、教育等多种场景，具备高效、易用和高性价比的特点。

AI项目与工具 2025年06月12日 72 点赞 0 评论 636 浏览

Microsoft Dragon Copilot

Microsoft Dragon Copilot 是一款专为医疗行业设计的AI语音助手，结合语音识别与环境感知技术，支持多语言语音输入、自动化任务处理、信息检索等功能。旨在提升临床文档效率、减轻医护人员负担，并优化医疗服务流程。适用于医生、护士、行政人员及其他医疗团队成员，提升工作效率与患者体验。

AI项目与工具 2025年06月12日 57 点赞 0 评论 940 浏览

Mochii AI

Mochii AI 是一款多功能AI助手，支持智能对话、文档分析、网页总结、图像识别等功能，兼容多种AI模型。用户可跨平台使用，适用于文档处理、内容创作、代码生成及数据分析等场景，具备个性化定制和上下文理解能力，提升工作效率与体验。

AI项目与工具 2025年06月12日 80 点赞 0 评论 735 浏览

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具，支持中英文双语及跨语言合成。它无需额外生成模型，通过LLM预测编码直接生成音频，实现零样本语音克隆。用户可自定义语音参数，如音色、语速等，适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 540 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 802 浏览

ARTalk

ARTalk是由东京大学与日本理化学研究所联合开发的语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然表情生成。它通过多尺度运动码本和滑动时间窗口技术提升动画质量，并引入风格编码器实现个性化风格适配。该工具在唇部同步、表情自然性和风格一致性方面优于现有技术，适用于虚拟现实、游戏开发、动画制作及人机交互等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 944 浏览

Videco

Videco 是一款基于 AI 技术的视频生成平台，支持语音克隆、动态变量和互动元素集成，适用于销售与市场营销场景。平台可生成个性化视频内容，提升用户参与度和转化率，并支持与 CRM 和邮件工具的集成。提供多语言支持与数据分析功能，助力企业优化营销策略，提高效率。

AI项目与工具 2025年06月12日 24 点赞 0 评论 768 浏览

Alexa+

Alexa+是亚马逊推出的智能助手，基于生成式AI技术打造，支持自然语言交互与多任务处理。它能够连接智能家居设备、执行日常任务、提供个性化服务，并具备跨设备协同和主动提醒功能。适用于家庭控制、信息查询、娱乐管理等多个生活场景，为用户提供高效便捷的智能体验。

AI项目与工具 2025年06月12日 65 点赞 0 评论 637 浏览

WhisperChain

WhisperChain 是一款开源语音识别工具，支持实时语音转文本并提供文本优化功能，可去除填充词、优化语法。用户可通过全局热键快速启动语音输入，处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构，适用于会议记录、写作辅助等场景。

AI项目与工具 2025年06月12日 57 点赞 0 评论 616 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期