图像生成 - 智狐AI导航

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

AI项目与工具 2025年06月12日 22 点赞 0 评论 576 浏览

Stability AI开源Stable Diffusion 3 Medium文生图模型

Stable Diffusion 3 Medium是一款由Stability AI开源的文本到图像生成模型，拥有20亿个参数，适用于消费级和企业级GPU。该模型具备照片级真实感、强大的提示理解和排版能力，以及高资源效率。此外，它还支持API试用，并得到了NVIDIA和AMD的支持，以优化其性能。Stability AI致力于开放和安全的AI应用，并计划持续改进SD3 Medium。

AI项目与工具 2024年01月01日 67 点赞 0 评论 494 浏览

腾讯元器

腾讯元器是一款基于腾讯混元大模型的AI智能体创作与分发平台，提供低代码或无代码的智能体开发环境，覆盖多种业务场景和功能。它通过智能体商店、工作流模式、腾讯生态集成等功能，简化了智能体的创建、部署和分发过程，支持一键分发至腾讯的多平台渠道，适用于客服、教育、金融、法律等多个行业。

AI项目与工具 2025年06月12日 31 点赞 0 评论 646 浏览

PuLID

PuLID是一种由字节跳动团队开发的个性化文本到图像生成技术，主要通过对比对齐和快速采样方法实现高效ID定制。该技术能够生成高度逼真的面部图像，同时保留原始图像的风格元素，支持灵活的个性化编辑。PuLID具有快速出图能力，无需繁琐的模型调整，且与多种现有模型兼容。它适用于艺术创作、虚拟形象定制、影视制作、广告和社交媒体等多个领域。

AI项目与工具 2024年01月01日 39 点赞 0 评论 781 浏览

Stable Artisan是一款基于Discord平台的图像和视频生成机器人服务，利用Stability AI的AI技术和模型，如Stable Diffusion 3和Stable Video Diffusion，使用户能够通过自然语言提示生成高质量的图像和视频。此外，它还提供了一系列图像编辑工具，包括搜索替换、背景去除、高清放大、扩展外延、控制素描和结构等功能，适用于创意人士、设计师、内容创作

AI项目与工具 2024年01月01日 46 点赞 0 评论 595 浏览

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架，通过轨迹分割一致性蒸馏（TSCD）、人类反馈学习（ReFL）和分数蒸馏等技术，显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时，大幅减少了推理步骤，实现了快速生成高分辨率图像，推动了生成式AI技术的发展。

AI项目与工具 2025年06月12日 73 点赞 0 评论 492 浏览

StreamMultiDiffusion

StreamMultiDiffusion是一款开源的实时交互式图像生成框架，结合了扩散模型的高质量图像合成能力和区域控制的灵活性。用户可以实时生成和编辑图像，通过文本提示和手绘区域生成特定部分的图像，提供高质量的图像输出。其主要功能包括实时图像生成、指定区域文本到图像生成、直观的用户界面、多提示流批处理架构、快速推理技术、区域控制、稳定化技术和Semantic Palette交互式图像生成。

AI项目与工具 2024年01月01日 95 点赞 0 评论 807 浏览

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型，能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成，并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制，确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

AI项目与工具 2024年01月01日 30 点赞 0 评论 735 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 537 浏览

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器，允许图像生成模型生成任意分辨率和宽高比的图像，同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm，ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

AI项目与工具 2024年01月01日 70 点赞 0 评论 536 浏览

图像生成

首页

图像生成

列表

默认

浏览次数

发布日期