语音识别 - 智狐AI导航

绘影字幕

为视频自动添加字幕，自动识别视频中的人声，转化成字幕，字幕翻译，字幕制作软件

字幕配音 2025年06月05日 87 点赞 0 评论 780 浏览

讯飞听见字幕

一款基于科大讯飞语音识别技术的AI视频字幕制作软件，提供视频加字幕、自动添加字幕、视频翻译等。

字幕配音 2025年06月05日 67 点赞 0 评论 571 浏览

Arctime字幕软件

简单、强大、高效的跨平台字幕制作软件

字幕配音 2025年06月05日 76 点赞 0 评论 790 浏览

Arctime

简单、强大、高效的跨平台字幕制作软件

字幕配音 2025年06月05日 34 点赞 0 评论 501 浏览

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统，专为企业级应用设计。它基于深度学习技术，能够精确区分语音和非语音信号，具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口，适用于智能助手、客服机器人等场景，帮助构建更高效、更智能的对话系统。

AI项目与工具 2025年06月11日 47 点赞 0 评论 619 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 570 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 623 浏览

Shadow

Shadow是一款智能会议助手，支持自动转录、语音识别、会议记录生成及关键信息提取等功能，帮助用户提升会议效率和执行力。其核心优势包括本地数据处理、隐私保护、与主流会议平台集成以及自动化任务执行能力。适用于销售、项目管理、市场分析及客户服务等多个场景，是提升团队协作效率的实用工具。

AI项目与工具 2025年06月11日 42 点赞 0 评论 542 浏览

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集，包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容，显著提升语音识别性能，实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境，为多模态语音识别研究提供丰富数据支持。

AI项目与工具 2025年06月11日 47 点赞 0 评论 456 浏览

BILIVE

BILIVE 是一款面向 B 站直播的 AI 工具，支持自动录制、弹幕渲染、语音识别、片段切片、封面生成及自动投稿。兼容低配置设备，无需 GPU，适合个人及小型团队使用，提升直播内容制作效率。

AI项目与工具 2025年06月11日 33 点赞 0 评论 938 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期