图像生成 - 智狐AI导航

InstructMove

InstructMove是由东京大学与Adobe合作开发的图像编辑模型，基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务，同时支持精确的局部编辑。该模型采用真实视频数据训练，提升编辑自然性与真实性，适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型，结合掩码和ControlNet等控制机制，实现灵活高效的图像编辑。

AI项目与工具 2025年06月12日 21 点赞 0 评论 691 浏览

FUSION BRAIN

FUSION BRAIN是一款基于AI的图像生成工具，能够根据文本描述生成高质量图像，并支持多种艺术风格和格式。用户可对生成的图像进行编辑和优化，适用于艺术创作、广告设计、游戏开发等多个领域。平台提供API接口，便于开发者集成与使用，是创意人员和研究人员的理想选择。

AI项目与工具 2025年06月12日 59 点赞 0 评论 847 浏览

DeepMode

DeepMode是一款由DEEPMODE LTD开发的AI艺术生成工具，专注于角色创建与图像生成。其核心功能包括面部表情转换、自定义角色设计和高质量图像生成，支持多种艺术风格，并具备即时生成和隐私保护特性。适用于游戏开发、视觉艺术、广告营销及个人创作等多个领域，为用户提供高效、专业的AI创作体验。

AI项目与工具 2025年06月12日 55 点赞 0 评论 654 浏览

RLCM

RLCM是由康奈尔大学开发的一种基于强化学习的文本到图像生成框架，通过微调一致性模型以适应特定任务的奖励函数，显著提升生成效率与图像质量。其核心技术包括强化学习、策略梯度优化及任务导向的奖励机制，适用于艺术创作、数据集扩展、图像修复等多个领域，具有高效的推理能力和对复杂任务的适应性。

AI项目与工具 2025年06月12日 69 点赞 0 评论 590 浏览

VMix

VMix是一款提升文本到图像生成美学质量的工具，通过解耦文本内容与美学描述，并引入细粒度美学标签，增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块，可在不改变原有模型结构的情况下注入美学条件，保持图文一致性。VMix兼容多种扩散模型及社区模块，支持多源输入、高质量视频处理、实时直播与远程协作，广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 531 浏览

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术，基于扩散模型并引入单向块注意力机制（UniBA），有效降低内存消耗，支持超高分辨率图像生成。其采用扩散变换器（DiT）架构，具备灵活的图像上采样能力，并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 84 点赞 0 评论 589 浏览