开源

Phidata

Phidata 是一个开源的 AI 智能体框架,支持开发者构建具备记忆、知识和推理能力的智能代理系统。它提供多代理协作、用户界面交互、性能监控优化等功能,并广泛应用于网络搜索、财务分析、数据科学和自动化任务等领域。

MaskGCT

MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型,由趣丸科技与香港中文大学(深圳)联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异,可快速精准地克隆音色并灵活调整语音属性,适用于多种语言,已开源并面向全球用户开放。

BlinkShot

BlinkShot 是一款基于 AI 的实时图像生成工具,支持用户通过输入描述性提示快速生成高质量图像。它采用 Together AI 的 Flux Schnell 技术,提供自定义分辨率和生成步骤功能,适合艺术创作、设计、游戏开发、广告营销等多个领域。工具基于开源技术开发,具备良好的可扩展性和可观察性。

NotebookLlama

NotebookLlama是一款基于Meta开发的开源工具,能够将PDF文档自动转换为高质量播客内容。它通过LLaMa模型完成PDF预处理、文本转播客脚本、增加戏剧性元素以及文本转语音合成等步骤,无需人工干预即可生成专业水准的播客。NotebookLlama提供了详细的教程和操作指南,并支持多种应用场景,包括教育、新闻、企业培训和有声书制作等。

DreamClear

DreamClear是一款由中国科学院自动化研究所与字节跳动团队联合开发的高性能图像修复工具,利用深度学习技术将低质量图像恢复为高质量图像,同时注重隐私保护。其核心技术包括深度扩散先验、方差保持采样和自适应调制器混合模块,广泛应用于图像质量提升、细节恢复、隐私保护及商业项目开发等领域。

NotebookMLX

NotebookMLX 是一款基于 MLX 技术开发的开源工具,支持将 PDF 文档转换为音频播客。它通过 PDF 预处理、播客脚本生成、文本优化以及文本转语音等功能,实现了从 PDF 文件到高质量音频内容的全流程自动化处理,适用于教育、播客创作、有声书制作等多个领域,显著提升了信息传播效率和用户体验。

Oasis

Oasis是一款依托于AI技术的实时生成游戏,无需依赖传统游戏引擎即可实现每秒20帧的高质量交互式视频内容输出。它支持玩家自由探索开放世界,并通过动态调整机制提供个性化体验。凭借开源特性及硬件优化能力,Oasis展示了AI在内容创作领域的巨大潜力,适用于游戏、教育、虚拟旅游等多个领域。

OSAID 1.0

OSAID 1.0是由Open Source Initiative(OSI)制定的开源AI标准,明确了AI系统成为开源所需的条件。该标准要求AI系统提供代码、数据和参数,并强调透明度与协作,适用于开源社区、企业、开发者、教育机构及政策制定者。它推动了AI领域的创新、透明度和信任建设,同时影响了现有AI模型的开发和法律地位。

Genmoai

Genmoai-smol 是一款专为单 GPU 设备设计的开源视频生成模型,能够将文本描述转化为高质量视频内容。其核心优势在于高保真度运动表现、强大的文本提示遵循能力及显存优化技术,支持用户在资源受限条件下开展视频创作。该工具提供了 Gradio UI 和命令行界面两种操作方式,并广泛应用于视频内容创作、超现实效果视频制作和技术研究等领域。

QrGPT

QrGPT是一款基于AI技术的二维码生成工具,支持用户通过输入链接或提示词自动生成个性化二维码。其主要功能包括快速生成二维码、个性化设计、开源代码以及一键部署。此外,QrGPT适用于多种场景,如营销推广、活动管理、个人名片及社交媒体链接分享等,助力用户高效实现信息传递。