开源项目

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

LivePortrait

利用AI技术将静态照片转换为视频,展现逼真的面部表情和动作。

Casibase

一个开源的AI知识库和对话系统,支持多种主流 AI 模型,具备企业级功能和多语言界面,适合企业知识管理和智能对话场景。

Darwin模型

Darwin模型是一个专门为自然科学领域(尤其是物理、化学和材料科学)设计的大语言模型(LLM),只要通过整合结构化和非结构化的科学知识,提升语言模型在科学研究

MagicMirror

MagicMirror是一款基于深度学习的开源AI工具,提供面部替换、发型调整和穿搭模拟功能。其特点包括易用性、硬件兼容性、隐私保护及轻量化设计,支持离线运行,适用于个人娱乐、创意设计及虚拟角色扮演等场景。

BiliNote

BiliNote 是一款开源 AI 视频笔记工具,支持从多个平台导入视频链接并生成结构化的 Markdown 笔记。具备音频转写、大模型总结、截图插入、内容跳转链接等功能,适用于学习、创作、培训等场景。采用 FastAPI 和 React 技术栈,支持 Docker 部署,便于用户快速集成与使用。

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

edge

edge-tts 是一个开源的AI文字转语音项目,支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术,能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择,易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、

Trace.moe

一个开源动漫场景搜索引擎,根据图像反向搜索动漫场景,帮助用户通过截图追溯原始动漫,完全免费无广告。