开源

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音(TTS)工具,支持多语言文本输入,通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力,延迟时间短,无需依赖音素,泛化性强,且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

HelpKit AI

HelpKit AI是一款基于GPT模型的智能问答,它可以将Notion​知识库转化为一个智能的、全天候的AI助手,提供准确即时的回答。

悟道大模型

北京智源研究院开发的一系列超大规模智能模型系统,悟道大模型旨在在语言处理领域达到或超越国际先进水平。

LivePortrait

利用AI技术将静态照片转换为视频,展现逼真的面部表情和动作。

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

Chalk.ist

一款由Idered打造的开源代码截图工具,帮助开发者将代码生成为美观的图片,用户只需粘贴代码,选择主题和样式,就能快速创建美观的代码截图,支持多种编程语言。

Health iCons

一个提供免费、开源健康图标的网站,适用于商业和个人项目。用户可以编辑和重新发布这些图标,无需注明出处。Health iCons的图标涵盖了血液、身体、疾病、避孕措施、设备、情感等多个主题。

Wav2Lip

Wav2Lip是一款开源的唇形同步工具,能够将音频文件转换为与口型同步的视频。它支持多种语言,适用于视频编辑、游戏开发和虚拟现实等多个领域。Wav2Lip具备音频驱动口型生成、面部表情同步和多语言支持等功能,采用先进的技术原理,如数据预处理、音频特征提取、口型编码器、音频到口型映射及生成对抗网络(GAN)。该工具提升了电影和视频的后期制作质量,增强了虚拟现实中的交互体验,还用于游戏开发、语言学习和