Diffusion Self Diffusion Self-Distillation (DSD) 是一种基于预训练文本到图像扩散模型的零样本定制图像生成技术,通过自动生成数据集并微调模型,支持文本条件下的图像到图像转换任务。其核心在于利用生成图像网格与视觉语言模型筛选高质量配对数据集,实现无需人工干预的身份保持定制化图像生成。该技术广泛应用于艺术创作、游戏开发、影视制作、广告营销及个性化商品等领域。 AI项目与工具 2025年06月12日 68 点赞 0 评论 202 浏览
DynamicFace DynamicFace是由小红书团队开发的视频换脸技术,结合扩散模型与时间注意力机制,基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块,确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸,广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域,具备高分辨率生成能力和良好的时间连贯性。 AI项目与工具 2025年06月12日 84 点赞 0 评论 202 浏览
GameNGen GameNGen是谷歌推出的一款AI游戏引擎,它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面,使大多数玩家难以分辨真假。该工具无需编程,简化了开发流程,同时具备高逼真度和交互式体验,为游戏创作提供了新的可能性。除了游戏开发,它还能应用于虚拟现实、自动驾驶等多个领域,具有广泛的应用前景。 AI项目与工具 2025年06月12日 66 点赞 0 评论 202 浏览
Flex3D Flex3D是一款由Meta和牛津大学联合研发的两阶段3D生成框架,通过多视图扩散模型和视图筛选机制生成高质量3D模型,支持从文本、单张图片或稀疏视图生成逼真的3D内容。其核心在于基于Transformer架构的灵活重建模型(FlexRM),结合三平面表示与3D高斯绘制技术,实现高效且详细的三维重建,广泛应用于游戏开发、AR/VR、影视制作等领域。 AI项目与工具 2025年06月12日 45 点赞 0 评论 200 浏览
DreamO DreamO是由字节跳动与北京大学联合开发的图像定制生成框架,基于扩散变换器(DiT)模型实现多条件图像生成。支持身份、风格、背景等条件的灵活集成,具备高质量生成、条件解耦和精准控制能力。适用于虚拟试穿、风格迁移、主体驱动生成等多种场景,具备广泛的适用性和技术先进性。 AI项目与工具 2025年06月11日 31 点赞 0 评论 197 浏览
EMO2 EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。 AI项目与工具 2025年06月12日 62 点赞 0 评论 195 浏览
LayerDiffusion LayerDiffusion是一种创新的AI工具,利用大规模预训练的潜在扩散模型生成具有透明度的图像。该技术引入了“潜在透明度”的概念,将图像的alpha通道透明度信息编码到潜在空间中。LayerDiffusion不仅可以生成单个透明图像,还能生成多个透明图层,支持条件控制生成和图层内容结构控制,确保高质量的图像输出。此外,它还能够生成多个透明图层,并通过共享注意力机制和低秩适应确保图层间的和谐混 AI项目与工具 2024年01月01日 69 点赞 0 评论 193 浏览
DCEdit DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。 AI项目与工具 2025年06月12日 15 点赞 0 评论 192 浏览
HandRefiner 解决AI图像生成中手部畸形的问题 目前的图像生成模型,再生成图像方面已经非常出色,但在生成人类手部的图像时却常常出现问题,比如手指数量不对或者手形怪异。 Ai开源项目 2025年06月05日 27 点赞 0 评论 190 浏览