语音

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集,包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容,显著提升语音识别性能,实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境,为多模态语音识别研究提供丰富数据支持。

Speech

Speech-02 是 MiniMax 推出的先进文本到语音模型,支持零样本语音克隆和高质量语音合成,具备多语言支持和情感控制功能。采用自回归 Transformer 和 Flow-VAE 架构提升语音自然度和相似度,适用于配音、有声读物、智能助手等多种场景。提供 HD 和 Turbo 两个版本,满足不同性能需求。

Shadow

Shadow是一款智能会议助手,支持自动转录、语音识别、会议记录生成及关键信息提取等功能,帮助用户提升会议效率和执行力。其核心优势包括本地数据处理、隐私保护、与主流会议平台集成以及自动化任务执行能力。适用于销售、项目管理、市场分析及客户服务等多个场景,是提升团队协作效率的实用工具。

音刻

Inkr 是一款高效的 AI 语音转录工具,支持超过 100 种语言,具备快速转录、多语言支持、说话人识别、高准确率等功能。其“FLASH”模式可在几秒内完成转录,适用于会议记录、采访整理、字幕制作及学习辅助等多种场景,提升信息处理效率。

Pemo

Pemo是一款AI驱动的文档管理工具,支持多格式文档导入与管理,提供智能翻译、摘要生成、思维导图、格式转换及语音朗读等功能。用户可自定义阅读模式并进行标注与笔记,提升阅读效率与知识整理能力,适用于学习、科研、办公及日常阅读等多种场景。

Sierra

Sierra 是一款基于对话式 AI 的客户服务解决方案,支持多语言、语音交互和品牌一致性,可实时处理复杂客户问题并优化体验。平台具备强大的适应性和数据分析能力,适用于零售、金融、电信等多个行业,提供高效、个性化的客户支持服务。

Notato

Notato 是一款基于 AI 的笔记应用,支持音频、视频、文档及网页内容的自动转录与结构化整理,生成摘要、闪卡和测验,适用于学习、会议、资料整理等多种场景。其具备多语言翻译、错题分析、后台录音等功能,提升信息处理与知识管理效率。

WeClone

WeClone是一款基于聊天记录创建数字分身的AI工具,通过微调大语言模型生成个性化风格的数字分身,并支持绑定到微信、QQ、Telegram等平台。它提供聊天记录预处理、语音克隆、隐私保护和本地化部署等功能,确保数据安全。用户可灵活配置模型,应用于个人助理、内容创作、情感陪伴等多个场景。

豆包·语音播客模型

豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客工具,基于流式模型构建,可将文本秒级转化为双人对话式播客。具有低成本、高时效、强互动特点,解决了传统AI播客内容重复、不够口语化的问题。支持低时延与可打断、深度搜索、高效创作、超长文本转播客等功能,适用于教育、娱乐、心理咨询、内容营销和有声读物制作等场景。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。