开源工具

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

YouDub

一款开源的多语言AI配音和视频翻译工具,优质视频中文化工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。

StreamRAG

一个视频搜索和流媒体代理工具,能让您在 ChatGPT 中与您的视频库聊天并观看视频流。

ThinkDiffusion

一个为用户提供专业级人工智能艺术工具的平台。它提供最新的稳定扩散用户界面,用户只需几个点击即可在任何设备上通过浏览器访问。

EasyVideoTrans

EasyVideoTrans是一款开源的AI视频翻译工具,支持从视频中提取音频并翻译字幕,同时提供多样化的声音风格以实现自然的配音效果。它适用于视频创作者、教育机构、企业培训及品牌宣传等领域,能够快速生成高质量的中文版本视频,满足跨语言沟通的需求。

Voice

Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等功能,支持超过100种语言,广泛应用于教育、娱乐和商业领域,显著提升音频处理效率和便捷性。

We0

We0是一款开源AI代码编辑器,支持在浏览器中运行和调试代码,具备高保真设计还原功能,能将设计稿还原度提升至90%。兼容Vue、React、Next.js、Python、Java等主流开发框架,支持历史项目导入与微信小程序开发,适用于快速构建和部署AI应用。提供多平台支持,适合开发人员和产品经理高效协作。

Granite 3.2

Granite 3.2是IBM推出的开源多模态AI模型系列,具备强大的推理、视觉理解和预测能力。其核心功能包括链式推理、多模态融合、稀疏嵌入和时间序列预测,适用于复杂任务自动化、文档理解、安全监控等领域。Granite 3.2通过优化资源利用和安全性设计,提升了模型性能与实用性。

Flex.2

Flex.2-preview是Ostris开发的开源文本到图像生成模型,具备80亿参数规模。支持长文本输入、图像修复和多模态控制输入,适用于创意设计、图像修复和内容生成等多种场景。模型基于扩散框架,采用多通道输入处理和高效推理算法,可通过ComfyUI或Diffusers库集成使用,适合实验性开发和个性化定制。