开源
Chatterbox
Chatterbox是Resemble AI推出的开源文本转语音(TTS)模型,基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练。它支持零样本语音克隆,仅需5秒参考音频即可生成高度逼真的个性化语音,并具备情感夸张控制功能,可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用于交互式应用。此外,它采用安全水印技术防止滥用,适用于内容
PDFMathTranslate
PDFMathTranslate是一款专注于科技文档翻译的开源工具,能够精准保留PDF文档的排版格式,包括公式、图表和目录结构。支持双语对照查看,兼容多种翻译服务,可实现全文或局部翻译,适用于学术研究、教育、技术文档、法律文件等多个领域。
Stability AI开源Stable Diffusion 3 Medium文生图模型
Stable Diffusion 3 Medium是一款由Stability AI开源的文本到图像生成模型,拥有20亿个参数,适用于消费级和企业级GPU。该模型具备照片级真实感、强大的提示理解和排版能力,以及高资源效率。此外,它还支持API试用,并得到了NVIDIA和AMD的支持,以优化其性能。Stability AI致力于开放和安全的AI应用,并计划持续改进SD3 Medium。
