开源工具

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

Surya

Surya是一款开源OCR工具包,专注于文档识别,支持90多种语言的文本提取与分析。它能够识别文档中的文本、表格、图片及标题等布局元素,并确保文本阅读顺序的准确性。凭借其高效的表格识别能力和优化的算法,Surya在处理复杂文档时表现出色,广泛应用于文档数字化、数据提取、多语言处理以及学术研究等领域。 ---

HyperChat

HyperChat 是一款开源的 AI 聊天客户端,支持多种语言模型 API 接入,如 OpenAI、Claude 等。基于 MCP 协议构建,具备插件扩展能力,支持多对话空间、Agent 自定义、WebDAV 同步等功能。适用于个人学习、团队协作、内容创作、代码开发及企业服务等多种场景,提供跨平台运行与灵活部署方式,兼顾高效性与安全性。

ClearerVoice

ClearerVoice-Studio 是一个基于复数域深度学习算法的开源语音处理框架,集成了语音增强、分离及音视频说话人提取等功能。它通过先进的 FRCRN 和 MossFormer 系列模型,实现了高效的语音信号处理,并具备强大的预训练能力和灵活的接口设计。该框架广泛应用于智能助手、会议记录、电话会议、公共安全等领域,助力提升语音处理技术的实际应用价值。

OpenThinker

OpenThinker-32B 是一款由多所高校联合开发的开源推理模型,拥有 328 亿参数和 16,000 token 上下文支持,以高效的数据利用和严格的质量控制著称。模型基于少量数据实现优异性能,适用于数学、科学、代码生成等多种推理任务。全面开源,提供模型权重、代码和数据集,支持研究与开发扩展。

Voice

Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等功能,支持超过100种语言,广泛应用于教育、娱乐和商业领域,显著提升音频处理效率和便捷性。

We0

We0是一款开源AI代码编辑器,支持在浏览器中运行和调试代码,具备高保真设计还原功能,能将设计稿还原度提升至90%。兼容Vue、React、Next.js、Python、Java等主流开发框架,支持历史项目导入与微信小程序开发,适用于快速构建和部署AI应用。提供多平台支持,适合开发人员和产品经理高效协作。

Excalidraw

Excalidraw是一款开源在线白板工具,具有简洁的手绘风格和实时协作能力。它支持多种绘图工具、导出格式和离线操作,适用于远程协作、头脑风暴、产品设计和技术绘图等领域。凭借其强大的功能和灵活的操作方式,Excalidraw成为团队和个人用户的理想选择。

EasyVideoTrans

EasyVideoTrans是一款开源的AI视频翻译工具,支持从视频中提取音频并翻译字幕,同时提供多样化的声音风格以实现自然的配音效果。它适用于视频创作者、教育机构、企业培训及品牌宣传等领域,能够快速生成高质量的中文版本视频,满足跨语言沟通的需求。

Comic Translate

Comic Translate 是一款基于开源框架的漫画翻译工具,支持多语言翻译,涵盖英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等主流语言。它利用深度学习技术和图像处理库,实现从文本检测、OCR 到翻译渲染的全流程自动化,旨在帮助用户突破语言限制,享受跨文化阅读体验。同时,该工具支持自定义翻译服务,适合个人娱乐、教育学习、翻译本地化及学术研究等多个领域。