开源工具

Second Me

Second Me 是由心识宇宙开发的开源 AI 身份模型,支持创建个性化且私有的 AI 代理,代表用户的真实自我。它提供 Chat Mode 和 Bridge Mode 两种交互模式,适用于不同场景下的沟通与信息反馈。支持本地运行,保障数据隐私。Second Me 采用分层记忆模型、个性化对齐架构等技术,具备多角色适应、智能记忆管理和链式推理能力,广泛应用于个人助理、职业发展、社交互动、学习辅导

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具,用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎,支持 100 多种语言,具备图像优化、纠偏、清洁等功能,提升识别准确率。支持多核处理与批量操作,适合高效处理大量文件,且完全离线运行,保障数据安全。

Zerox

Zerox是一款基于GPT-4o-mini模型的开源OCR工具,支持多种文件格式,具备零样本识别能力,可高效处理扫描文档和复杂布局内容。其输出为Markdown格式,便于编辑与使用,同时提供API接口,适用于企业文档管理、学术研究、法律金融等多个场景,显著提升文档处理效率和准确性。

Audio Decomposition

Audio Decomposition 是一款基于傅里叶变换和信封匹配技术的开源音频处理工具,能够分离音乐中的不同乐器声音并生成乐谱。它支持音乐转录、教育、制作及分析,通过深度音频处理为用户提供了强大的音乐解析能力。

Ovis2

Ovis2是阿里巴巴国际团队开发的多模态大语言模型,采用结构化嵌入对齐技术提升视觉与文本的融合效果。支持视频、图像和多语言处理,强化了思维链推理和复杂场景下的OCR能力。提供多个参数规模的版本,适用于研究、开发及各类应用场景,展现卓越性能。

OpenBMB

OpenBMB作为一个大型的中英文双语基础模型,通过在大规模语料库上的预训练,具备了优秀的语言处理能力。

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具,基于超10万小时播客数据训练,支持零样本语音合成与说话人适配,可在0.33秒内生成1秒音频,适合实时与长内容合成。支持本地部署与API调用,应用于播客、有声书、视频配音、AI角色及新闻播报等领域,兼具高效性与灵活性。

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型,具备高效计算能力和紧凑结构,支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构,结合高效与精准优势,支持无位置编码(NoPE)处理128K tokens上下文。内存需求降低72%,推理时仅激活1B参数,适用于边缘设备部署、长文本分析及企业级应用开发,适合资源受限环境下的AI研究与

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容

OpenCodeInterpreter

通过结合大型语言模型和代码执行反馈,提供了一个强大的工具,可以帮助开发者在软件开发过程中提高效率和质量。