开源

BabelDOC

BabelDOC是一款专为科学论文翻译设计的开源PDF处理工具,支持双语对照显示,保留原文格式如公式、图表等。兼容多种翻译引擎,支持自定义模型接入,适用于学术、商业和技术文档翻译,提供在线和本地部署方式,保障翻译准确性和排版一致性。

Aide

Aide 是一款开源的 AI 辅助编程工具,具备代码注释、代码转换、智能粘贴、批量处理和变量重命名等功能,支持多种 AI 模型。它能够帮助开发者提高代码的可读性、简化跨语言开发、加速设计到代码的转换过程,并提供代码审查建议,从而提升开发效率。 ---

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型,具备17亿参数,支持多种图像风格生成,包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色,适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构(MoE),并集成多种文本编码器,实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源,便于研究与应用。

TextBase

TextBase 是一款简单的框架,用于构建 AI 聊天机器人,它可以帮助开发人员快速搭建和优化聊天机器人。

ThinkDiffusion

一个为用户提供专业级人工智能艺术工具的平台。它提供最新的稳定扩散用户界面,用户只需几个点击即可在任何设备上通过浏览器访问。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

MeloTTS

MeloTTS是一个高质量的多语言文本转语音(TTS)库,由MyShell AI开发。该工具支持多种语言的文本转语音任务,包括英语(含不同口音)、西班牙语、法语、中文、日语和韩语,并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音,还易于安装和使用,适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

Coqui.ai

Coqui.ai 是一个语音技术的开源平台,Coqui.ai 通过生成式 AI 提供逼真、富有情感的文本转语音,它可以从 3 秒的音频中克隆任何声音并调整其风格、节奏和情感。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。