多语言

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

Scispace

SciSpace是一款基于人工智能的工具,帮助用户理解和分析科学研究论文。它提供了高亮文本、提问、提取解释和摘要以及进行文献综述等功能。

Memo.ac

Memo是一款将视频转换为翻译文本、字幕和笔记的工具,它支持多语言,可以在中文、英文、日文和90多种语言之间进行转录和翻译。

CosyVoice

一种深度融合文本理解和语音生成的一项新型语音合成技术,CosyVoice能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。

YuE

YuE 是一款由香港科技大学与 Multimodal Art Projection 联合开发的开源 AI 音乐生成模型,支持多语言和多种音乐风格,如流行、金属、爵士、嘻哈等。通过语义增强音频分词器、双分词技术和三阶段训练方案,解决长上下文处理与音乐生成难题,生成结构连贯、旋律优美的歌曲。模型完全开源,用户可自由使用和定制,适用于音乐创作、影视配乐、游戏音效及社交媒体内容制作等多个场景。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

bossjob

BossJob 是一款基于人工智能技术的全球化招聘平台,提供 AI 翻译和简历分析功能,助力跨国招聘和简历筛选。其核心功能包括多语言翻译、精准简历评估以及文化与技能匹配分析,帮助企业高效选拔优秀人才,同时为求职者提供职业发展建议。平台还计划扩展至 AI 模拟面试等功能,进一步优化招聘流程。

Vocol.Ai语音转文本神器

Vocol.Ai语音转文本神器,一个一体化语音协作平台,它使用人工智能将语音高精度地转换为文本并分享可操作的见解。它具有多种语言转录功能。

pipio

pipio是一款专业的视频AI配音工具,集成了高精度的口型匹配技术、多语言翻译能力和高质量的声音克隆功能。它支持超过40种语言,能够快速实现视频内容的本地化,适用于国际营销、教育培训、娱乐传媒等多个领域,显著提高了跨语言视频制作的效率。

OmniMind

OmniMind是一款低代码AI平台,支持用户通过直观界面快速创建和部署定制化AI解决方案。它能够整合多种数据源,提供个性化知识库和灵活的定制选项,适用于不同行业场景,如客户支持、教育工具、销售助理及电子商务等。通过AI技术优化业务流程,增强用户体验。