开源项目

Vary

一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

Draw an Audio

创新的视频生成音频系统,它通过先进的AI技术,能够自动分析视频内容并生成与之匹配的声音效果。

Screenshot to Code

无论是在线使用还是本地部署,它都为用户提供了灵活、高效的代码生成解决方案。此外,通过提供编辑功能和代码导出,它满足了用户对代码调整和个性化的需求。

书生·物华2.0(3DTopia 2.0)

采用创新的原语(primitive-based)三维表示方法PrimX,能够高效编码和生成具有物理基础渲染(PBR)特性的高质量三维资产。

StarCoder 2

一个强大的代码生成和理解工具,它通过大规模训练和多样化的模型规模,为开发者提供了一个高性能的编程辅助平台。

ScreenAgent

一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

PortraitGen

AI人像视频编辑工具,它通过先进的技术实现了对视频中人物的高质量编辑。无论是在影视制作、艺术创作、广告宣传、时尚展示、社交媒体还是游戏开发等领域,PortraitGen都能提供高效...

GOT

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

MMMLU

重要的多语言、多任务语言理解数据集,它为研究人员和开发者提供了一个标准化的测试基准,用于评估和提升AI模型在不同语言和文化背景下的性能。

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能,并通过定制化微调和本地部署,推动了AI技术的开放性和可访问性。