开源项目

PDFtoChat

PDFtoChat 是一款基于 AI 技术的开源工具,支持用户通过自然语言对话与 PDF 文件交互。它具备强大的文档解析、智能检索和即时反馈能力,广泛应用于学术研究、法律咨询、商业分析、教育培训和技术文档查询等领域,显著提升文档处理效率。

3D

3D-Speaker是一个多模态开源项目,专注于通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码,以及多样化数据集,并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

memobase

Memobase 是一个开源用户记忆系统,专为生成式 AI 应用设计,支持长期用户数据存储与管理。具备时间感知、灵活配置、高效集成与批量处理能力,适用于虚拟助手、教育工具、用户分析等场景。通过结构化用户画像和事件序列管理,提升 AI 的个性化服务能力,支持大规模用户环境下的稳定运行。

StarVector

StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。

流光卡片

一种将文字、图片、代码等内容包装成精美卡片的文字卡片制作神器,流光卡片可以帮助用户快速生成视觉吸引力强的内容,非常适合用于书摘号、书单号、小红书笔记、名言等。

NextChat

NextChat 是一个基于 Next.js 和 Vercel 的开源项目,允许用户将 ChatGPT 等 AI 大模型集成到自己的网页应用中。该工具支持多平台部署,具备一键式部署功能,并提供完整的 Markdown 支持。NextChat 可用于个人助理、客户服务、教育辅导、内容创作和技术支持等多个领域。

DeepChat

一款开源的AI聊天客户端,内置强大的 DeepSeek 大模型,支持多轮对话、联网搜索、文件上传、知识库等多种功能。

ImagePulse

ImagePulse是由魔搭社区推出的开源项目,专注于图像理解和生成模型的数据集支持。它通过将复杂任务拆解为“修改、添加、移除”“风格迁移”“人脸保持”等原子能力,构建专门的数据集,提升模型在特定任务上的性能。项目提供开源脚本,支持数据集的生成与扩展,并结合多种技术资源实现多模型协同,适用于艺术创作、视频制作、产品展示等多个领域。

ReHiFace

ReHiFace-S是一款由硅基智能团队开发的开源AI项目,专注于高保真、实时的人脸替换。该算法具备无需数据训练、高保真度换脸、支持多目标人脸替换、色彩矫正、一键快速部署、Gradio交互界面及支持ONNX格式等特点。ReHiFace-S适用于娱乐、影视制作、VR/AR等多个领域,具有实时处理能力、零样本推理、改进的人脸分割模型等功能。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。