语音识别 - 智狐AI导航

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包，涵盖语音识别（ASR）、语音活动检测（VAD）、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调，并提供预训练模型和易用接口，便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能，广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 732 浏览

逗逗

逗逗是心影随形（上海）技术有限公司开发的AI游戏伙伴，它通过语音互动、情绪陪伴、智能攻略、笑话分享和多角色扮演，为玩家提供个性化和有趣的游戏体验。

创作工具 1970年01月01日 0 点赞 0 评论 732 浏览

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵，包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色，蓝心语音大模型支持多语言，蓝心图像大模型融合了中国特色和东方美学，蓝心多模态大模型则提供了流畅的视频对话体验。

AI项目与工具 2025年06月12日 76 点赞 0 评论 729 浏览

Timtalk

Timtalk是一款基于人工智能技术的英语口语学习工具，集成了文本和语音对话功能，提供即时反馈、语法检查、词汇扩展及语音识别服务。它能够模拟真实交流场景，满足不同水平用户的需求，并支持多平台使用。无论是日常对话、旅行场景还是专业领域如商务和学术交流，Timtalk都可作为高效的辅助工具。

AI项目与工具 2025年06月12日 22 点赞 0 评论 728 浏览

Avatar IV

Avatar IV 是 HeyGen 推出的 AI 数字人模型，支持用户通过上传照片和语音快速生成逼真视频。该工具基于音频驱动的表情引擎，能精准捕捉语音中的语调、节奏和情感，生成自然流畅的面部表情和动作。操作简单，无需专业技能，适用于多种角色形象，涵盖社交媒体、企业营销、在线教育等多个领域，是高效内容创作的理想选择。

AI项目与工具 2025年06月11日 45 点赞 0 评论 727 浏览

Tactiq.io

一个为各种在线会议平台（例如 Google Meet、Zoom 和 MS Teams）提供实时转录服务的平台。Tactiq.io提供实时转录、人工智能生成的会议摘要、行动项目以及提出自定义问题的功能等功能。

Ai办公效率 2025年06月05日 75 点赞 0 评论 726 浏览

HMoE

HMoE（混合异构专家模型）是腾讯混元团队提出的一种新型神经网络架构，旨在提升大型语言模型的性能和计算效率。通过引入不同规模的专家来处理不同复杂度的输入数据，HMoE增强了模型的专业化程度，并采用了新的训练目标和策略，如P-Penalty Loss，以提高参数利用率和计算效率。HMoE在多个预训练评估基准上表现出色，适用于自然语言处理、内容推荐、语音识别、图像和视频分析以及多模态学习等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 724 浏览

FoloUp

FoloUp 是一款开源的 AI 语音面试平台，能根据职位描述自动生成面试问题，并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成，提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘，结合语音识别、NLP 和安全数据管理技术，适用于多种招聘场景，提升招聘效率与质量。

AI项目与工具 2025年06月12日 74 点赞 0 评论 722 浏览

SenseVoice

一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，SenseVoice具有多语种、混合语言、音色和情感控制能力。

Ai语音工具 2025年06月05日 58 点赞 0 评论 721 浏览

创音岛

创音岛是一款集录音转文字、配音、AI写歌及音频编辑于一体的综合性音乐创作与音频处理平台。它采用先进语音识别技术，支持多场景下的文字转录需求；提供多样化的配音选项和智能化音乐编曲功能，帮助用户轻松创作音乐；并配备音频编辑工具，满足用户对音频文件的精细化处理需求。该平台界面友好，操作便捷，适合音乐爱好者、创作者及专业人士使用。

AI项目与工具 2025年06月12日 42 点赞 0 评论 721 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期