开源

FaceSwap

FaceSwap是一款开源AI换脸软件,利用深度学习技术实现人脸检测、提取及替换。它支持跨平台操作,包括Windows、macOS和Linux,并可借助GPU加速提升处理效率。FaceSwap还允许用户自定义模型训练以优化换脸效果,广泛应用于影视制作、教育、游戏开发以及虚拟现实等领域。

MarkItDown

MarkItDown是一款由微软推出的开源文档转换工具,支持多种文件格式(如PDF、Office文档、图像、音频等)转换为Markdown格式。它具备OCR文字识别、语音转文字、元数据提取等功能,适用于文档归档、内容发布、数据挖掘、学术研究等多个场景,旨在简化文件处理流程,提升工作效率。通过提供简单易用的API接口,MarkItDown成为开发者友好型工具。

COMET

COMET是字节跳动开发的Mixture-of-Experts(MoE)模型优化系统,通过细粒度计算-通信重叠技术和自适应负载分配机制,显著提升分布式训练效率。它在大规模模型中实现单层1.96倍、端到端1.71倍的加速,具备强鲁棒性与泛化能力,支持多种硬件环境和并行策略,核心代码已开源并可无缝集成至主流训练框架。

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型,具备强大的数学推理与代码生成能力。通过预训练与后训练相结合,利用大量高价值语料及强化学习算法,在 7B 参数规模下实现超越更大模型的表现。支持多场景应用,包括教育、科研、软件开发等,已开源至 HuggingFace,便于开发者使用与研究。

MCP Servers

MCP Servers是字节跳动推出的大模型生态平台,为开发者提供高效、灵活的大模型开发与部署环境。通过MCP协议集成搜索、数据库、API等工具,支持模块化开发和全链路闭环。平台整合MCP Market、火山方舟和Trae,实现从工具调用到应用部署的全流程。支持Local和Remote部署模式,涵盖自动化代码生成、智能数据库运维、跨仓库调试等应用场景,助力开发者提升效率。

UIGEN

一个基于 Qwen2.5-Coder-7B 模型微调的开源 UI 设计生成工具,能够根据用户输入的提示生成结构清晰且符合标准的 HTML 和 CSS 代码

FUSION BRAIN

FUSION BRAIN是一款基于AI的图像生成工具,能够根据文本描述生成高质量图像,并支持多种艺术风格和格式。用户可对生成的图像进行编辑和优化,适用于艺术创作、广告设计、游戏开发等多个领域。平台提供API接口,便于开发者集成与使用,是创意人员和研究人员的理想选择。

AgentCPM

AgentCPM-GUI是由清华大学与面壁智能团队联合开发的开源端侧GUI代理系统,专为中文应用场景优化。基于MiniCPM-V模型,支持通过截图输入并自主执行用户指令,具备高精度GUI元素识别与OCR能力。采用强化微调和紧凑动作空间设计,提升任务执行效率与移动端适配性。适用于智能助手、自动化测试、老年人辅助及企业应用等领域。

OpenScholar

OpenScholar是一款由华盛顿大学与艾伦AI研究所联合研发的检索增强型语言模型,专为科学家设计,能够高效检索并综合海量科学文献信息,生成基于文献的事实性回答。该工具具备强大的跨学科适用性,涵盖计算机科学、生物医学等多个领域,同时支持自我反馈迭代优化,显著提升回答质量和引用可靠性。所有相关资源已完全开源,便于全球学者使用与研究。