PE

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

PaperBrain

PaperBrain一个免费的供您访问和理解研究论文的平台。有了论文摘要和直接的 pdf 链接,您再也不用为繁琐的下载而烦恼了。

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

Trancy

Trancy是一款专为语言学习设计的浏览器插件,提供YouTube/Netflix双语字幕、网页AI划词翻译和全文翻译等功能,用于提升语言学习效率。

Paperclips Copilot

Paperclips Copilot是一个旨在让学生学习更轻松的在线平台。它通过GPT提供了一种方便有效的方法来创建和管理抽认卡。

OmniTalker

OmniTalker 是一款由阿里巴巴开发的实时多模态交互技术,支持文本、图像、音频和视频的同步处理,并能生成自然流畅的语音响应。其核心技术包括 Thinker-Talker 架构和 TMRoPE 时间对齐技术,实现音视频精准同步与高效流式处理。适用于智能语音助手、内容创作、教育、客服及工业质检等场景,具有高实时性与稳定性。

Casper AI

Casper AI,一个Chrome浏览器插件扩展,通过利用OpenAI的GPT对文章进行分析和提取关键信息,并提供简明准确的摘要和简化工作流程的工具。

Supercreator.ai

Supercreator.ai 是一个使用人工智能根据您的关键字和偏好生成文本、图像、视频和音频,帮助您为在线业务创建内容的网站。