语音识别 - 智狐AI导航

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 632 浏览

BILIVE

BILIVE 是一款面向 B 站直播的 AI 工具，支持自动录制、弹幕渲染、语音识别、片段切片、封面生成及自动投稿。兼容低配置设备，无需 GPU，适合个人及小型团队使用，提升直播内容制作效率。

AI项目与工具 2025年06月11日 33 点赞 0 评论 937 浏览

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集，包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容，显著提升语音识别性能，实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境，为多模态语音识别研究提供丰富数据支持。

AI项目与工具 2025年06月11日 47 点赞 0 评论 455 浏览

Shadow

Shadow是一款智能会议助手，支持自动转录、语音识别、会议记录生成及关键信息提取等功能，帮助用户提升会议效率和执行力。其核心优势包括本地数据处理、隐私保护、与主流会议平台集成以及自动化任务执行能力。适用于销售、项目管理、市场分析及客户服务等多个场景，是提升团队协作效率的实用工具。

AI项目与工具 2025年06月11日 42 点赞 0 评论 542 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 622 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 570 浏览