开源

DeepFloyd

DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习。

AutoTrain

AutoTrain是一款由Hugging Face开发的无代码平台,支持用户通过上传数据快速创建和部署定制化的AI模型。它涵盖多种机器学习任务,如文本分类、图像识别及表格数据分析,并提供自动化的数据预处理、分布式训练、超参数优化等功能,适用于自然语言处理、计算机视觉等多个领域。其核心优势在于简化了模型训练流程,使非技术人员也能高效构建高质量模型。 ---

Marker

Marker 是一款开源的高精度文档转换工具,支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素,支持多语言处理,具备表格、代码块、公式识别及图像提取等功能,适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理,提升转换效率与用户体验。

Botgroup.chat

Botgroup.chat 是一款支持多人 AI 交互的聊天平台,用户可自定义 AI 角色并进行群聊互动。平台兼容多种 AI 模型,支持实时对话、Markdown 排版及数学公式显示,具备上下文记忆和角色管理功能。项目基于 React 和 Cloudflare Pages 构建,部署便捷,代码开源,适用于语言学习、创意讨论等多种场景。

StableV2V

StableV2V是一款基于文本、草图和图片输入的开源视频编辑工具,利用Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)和Conditional Image-to-video Generator(CIG)三大模块,实现视频中物体的精准编辑与替换,同时保持编辑内容与原始视频在动作和深度信息上的高度一致性,适用于电影制作、教育、

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理,能够通过稀疏控制信号(如手动轨迹、面部关键点序列或音频)实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习,能够将多种控制信号组合使用,生成复杂的动画效果,并能生成较长的视频片段。 ---

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

Crack Coder

Crack Coder 是一款开源的 AI 编程辅助工具,专为技术面试设计。它能够在后台运行,不被检测到,并提供实时代码建议,支持多种编程语言。该工具具备精准的上下文分析能力,适用于面试准备、编程学习及算法练习等场景,同时支持本地部署以保障隐私和性能。

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

Klavis AI

Klavis AI 是一个基于 MCP 协议的开源平台,提供稳定可靠的 MCP 服务器和多客户端集成能力。支持多种工具定制化配置,内置身份验证功能,保障安全性。平台采用分布式架构,适用于大规模用户场景,并通过 API 实现灵活部署与管理,适用于 AI 开发、数据处理、内容创作及企业协作等多种应用场景。