语音识别 - 智狐AI导航

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵，包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色，蓝心语音大模型支持多语言，蓝心图像大模型融合了中国特色和东方美学，蓝心多模态大模型则提供了流畅的视频对话体验。

AI项目与工具 2025年06月12日 76 点赞 0 评论 810 浏览

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包，涵盖语音识别（ASR）、语音活动检测（VAD）、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调，并提供预训练模型和易用接口，便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能，广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 808 浏览

Timtalk

Timtalk是一款基于人工智能技术的英语口语学习工具，集成了文本和语音对话功能，提供即时反馈、语法检查、词汇扩展及语音识别服务。它能够模拟真实交流场景，满足不同水平用户的需求，并支持多平台使用。无论是日常对话、旅行场景还是专业领域如商务和学术交流，Timtalk都可作为高效的辅助工具。

AI项目与工具 2025年06月12日 22 点赞 0 评论 807 浏览

EAP Talk

EAP Talk 是一款基于AI技术的学术英语口语学习工具，提供实时发音、语法和流利度评估，支持多种练习模式如朗读、演讲和情景对话。内置学术场景训练、真人互动及个性化课程，适合高校学生和英语学习者提升口语能力。系统支持词汇练习、学习报告生成和进度跟踪，广泛应用于留学备考、学术研究、国际课堂及职场英语等领域。

AI项目与工具 2025年06月11日 48 点赞 0 评论 805 浏览

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型，通过集成自动语音识别（ASR）、大型语言模型（LLM）、文本到语音（TTS）以及WebSockets等技术，提供高质量、实时的语音交互体验。它支持全双工交互和打断功能，可整合网络搜索和RAG模型以增强回答能力，适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 804 浏览

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型，支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎，能精准捕捉语音中的语调、节奏和情感，生成自然流畅的面部表情和动作。操作简单，无需专业技能，适用于多种角色形象，涵盖社交媒体、企业营销、在线教育等多个领域，是高效内容创作的理想选择。

AI项目与工具 2025年06月11日 45 点赞 0 评论 803 浏览

HMoE

HMoE（混合异构专家模型）是腾讯混元团队提出的一种新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据，HMoE增强了模型的专业化程度，并采用了新的训练目标和策略，如P-Penalty Loss，以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色，适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 802 浏览

悦音配音

AI智能配音工具，独有的AI智能配音技术，更专业，完美贴近真人配音，AI模仿真人情感（怀旧、欢快、激情、伤心、抒情、惊讶等），支持多音字、停顿、整数、小数、数字等特色发音，...

创作工具 2026年06月27日 0 点赞 0 评论 798 浏览

SenseVoice

一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，SenseVoice具有多语种、混合语言、音色和情感控制能力。

Ai语音工具 2025年06月05日 58 点赞 0 评论 797 浏览

创音岛

创音岛是一款集录音转文字、配音、AI写歌及音频编辑于一体的综合性音乐创作与音频处理平台。它采用先进语音识别技术，支持多场景下的文字转录需求；提供多样化的配音选项和智能化音乐编曲功能，帮助用户轻松创作音乐；并配备音频编辑工具，满足用户对音频文件的精细化处理需求。该平台界面友好，操作便捷，适合音乐爱好者、创作者及专业人士使用。

AI项目与工具 2025年06月12日 42 点赞 0 评论 797 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期