开源

GTSinger

GTSinger是一项由浙江大学研发的开源高质量歌声数据集,包含80.59小时的多语言专业录音棚歌声数据,支持歌声合成、技巧识别、风格迁移和语音到歌声转换等多种任务。它通过音素级标注和真实乐谱支持,为歌唱技巧的研究和应用提供了强大工具。

Yi

Yi-Coder是一款由零一万物开发的开源AI编程助手,支持52种主流编程语言,能够处理长达128K tokens的上下文。它在多个代码生成基准测试中表现优异,尤其在LiveCodeBench平台上的表现尤为突出。Yi-Coder在代码编辑和补全方面也有卓越的表现,适用于各种开发项目,帮助开发者提高工作效率。 ---

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术,帮助用户基于语音转文字的结果,选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面,以及支持多段剪辑和自动生成SRT字幕文件。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_Agents提供从基础到高级的教程与实现代码,帮助开发者学习并构建智能、交互式的AI系统。

Deepfake Defenders

Deepfake Defenders 是一个由中国科学院自动化研究所的 VisionRush 团队开发的开源 AI 模型,主要用于检测和防御 Deepfake 技术生成的伪造图像和视频。它通过分析媒体内容中的细微像素变化来识别伪造内容,并提供像素级分析、实时检测等功能。该模型采用卷积神经网络(CNN)、生成对抗网络(GAN)等技术,支持多模态分析,具备开源协作特性,广泛应用于社交媒体监控、新闻验证

ToddlerBot

ToddlerBot是由斯坦福大学开发的开源人形机器人平台,具备30个主动自由度,采用Dynamixel电机,总成本低于6000美元。它支持模拟到现实的零样本迁移,可通过远程操作采集高质量数据,适用于运动控制、强化学习及多机器人协作等研究场景。其高保真数字孪生技术与易维护设计,使其成为科研和教育领域的理想工具。

SWE

SWE-agent是普林斯顿大学NLP研究团队开发的开源AI工具,旨在帮助程序员和软件工程师解决GitHub存储库中的问题。它通过智能体-计算机接口(ACI)与代码库交互,实现代码浏览、编辑、测试及执行等功能。SWE-agent在SWE-bench测试集上的表现与Devin相近,平均93秒解决问题。其功能包括拉取请求问题解决、代码编辑与修复、自动语法检查、文件查看、全目录字符串搜索、命令与反馈处理

Kiln AI

Kiln AI 是一款开源 AI 开发工具,支持多平台使用,提供零代码微调、合成数据生成及团队协作功能。内置交互式工具,兼容多种模型和 AI 提供商,支持 Git 版本控制与自动部署,适用于智能客服、医疗、教育、金融等场景,注重数据隐私与安全性。

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型,支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构,具备多语言支持及长文本处理能力,适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本,支持零样本学习,提升语音自然度和表现力。