开源专题

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 800 浏览

LM Studio是一个开源的本地大语言模型（LLM）应用平台，提供图形用户界面（GUI）和命令行界面（CLI），便于用户使用大型语言模型。LM Studio支持从Hugging Face等平台下载兼容的模型文件，并提供了一种“Playground”模式，用户可以通过该模式同时运行多个AI模型，以增强性能和输出。此外，LM Studio还具备模型发现功能，能够在应用首页展示新的和值得关注的LLMs

AI项目与工具 2025年06月12日 42 点赞 0 评论 432 浏览

AIGCPanel

AIGCPanel是一款开源的AI数字人系统，支持视频合成、声音合成与声音克隆等功能。它利用自然语言处理、计算机视觉技术和深度学习算法，实现高质量的音视频同步和自然语音生成。系统具有多语言支持、模型管理和日志查看功能，可应用于影视制作、虚拟主播、教育培训等多个领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 558 浏览

DreamClear

DreamClear是一款由中国科学院自动化研究所与字节跳动团队联合开发的高性能图像修复工具，利用深度学习技术将低质量图像恢复为高质量图像，同时注重隐私保护。其核心技术包括深度扩散先验、方差保持采样和自适应调制器混合模块，广泛应用于图像质量提升、细节恢复、隐私保护及商业项目开发等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 546 浏览

edge

edge-tts 是一个开源的AI文字转语音项目，支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术，能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择，易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、

AI项目与工具 2025年06月12日 86 点赞 0 评论 616 浏览

VersaGen

VersaGen是一款基于生成式AI的文本到图像合成工具，支持多样化视觉控制和灵活的创意表达。通过适配器训练和优化策略，VersaGen将视觉信息融入生成过程中，显著提升了图像质量和用户体验。该工具适用于创意设计、数字艺术、广告营销、游戏开发及影视制作等多个领域，为用户提供了高效且直观的视觉创作解决方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 524 浏览

TEN Agent

TEN Agent 是一款开源的实时多模态 AI 框架，集成了 OpenAI 实时 API 和 RTC 技术，支持语音、文本和图像的多模态交互。它具备天气查询、网络搜索、视觉识别及 RAG 等功能，支持高性能实时通信和模块化扩展，适用于智能客服、语音助手、教育辅助、智能家居控制和健康咨询等多个领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 471 浏览

XGrammar

XGrammar 是一款由陈天奇团队开发的开源工具，旨在为大型语言模型提供高效的结构化数据生成能力。它基于上下文无关语法（CFG），支持生成 JSON 和 SQL 等格式的复杂数据结构，具备字节级下推自动机优化、自适应 token 掩码缓存以及上下文扩展等功能，能够显著提升生成效率并减少延迟，适用于编程语言辅助、数据库操作、自然语言处理、Web 开发等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 782 浏览