开源

DiT

创新的图像生成模型,它通过结合扩散模型和Transformer架构,实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

MMMLU

重要的多语言、多任务语言理解数据集,它为研究人员和开发者提供了一个标准化的测试基准,用于评估和提升AI模型在不同语言和文化背景下的性能。

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能,并通过定制化微调和本地部署,推动了AI技术的开放性和可访问性。

MotionCtrl

强大的视频生成工具,它通过精确控制视频中的相机和物体运动,为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作,MotionCtrl都能够提供令人满意的解决方案。

I2VGen

一个强大的图像到视频的生成模型,它通过创新的方法解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。用户可以轻松地将静态图像转换为高质量的动态视频,生成的视...

书生·物华2.0(3DTopia 2.0)

采用创新的原语(primitive-based)三维表示方法PrimX,能够高效编码和生成具有物理基础渲染(PBR)特性的高质量三维资产。

ReplaceAnything

一个功能强大且用户友好的图像编辑工具,它通过AI技术实现了图像中物体的智能替换。无论是设计师、摄影师还是普通用户,都可以利用这个工具创造出独特的视觉效果,为创意工作带来...

PhotoMaker V2

一个功能强大、操作简便的 AI 图像生成工具,它通过深度学习技术实现了快速、高质量的逼真人物图像生成。该工具不仅在技术上实现了突破,还在应用场景上展现了广泛的潜力,无论是...

UniEdit

UniEdit 是一个强大的视频编辑工具,它通过利用预训练的文本到视频生成器,在无需调优的情况下,提供了一种简单而有效的方法来编辑视频的运动和外观。

V

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。