视觉生成 - 智狐AI导航

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 743 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 752 浏览

PixelFlow

PixelFlow是由香港大学与Adobe联合开发的图像生成模型，支持在像素空间中直接生成高质量图像。其基于流匹配技术和多尺度生成策略，实现从低分辨率到高分辨率的逐步生成，有效降低计算成本。该模型在类别条件图像生成和文本到图像生成任务中表现优异，具备强大的语义理解和视觉表达能力。此外，PixelFlow采用端到端训练方式，支持多种ODE求解器，适用于艺术设计、内容创作、教育研究等多个领域。

AI项目与工具 2025年06月11日 100 点赞 0 评论 382 浏览

GEN3C

GEN3C是由NVIDIA、多伦多大学和向量研究所联合开发的生成式视频模型，基于点云构建3D缓存，结合精确的相机控制和时空一致性技术，实现高质量视频生成。支持从单视角到多视角的视频创作，具备3D编辑能力，适用于动态场景和长视频生成。在新型视图合成、驾驶模拟、影视制作等领域有广泛应用前景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 547 浏览

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 478 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 490 浏览

xAR

xAR是由字节跳动与约翰·霍普金斯大学联合研发的自回归视觉生成框架，采用“下一个X预测”和“噪声上下文学习”技术，提升视觉生成的准确性和效率。其支持多种预测单元，具备高性能生成能力，在ImageNet数据集上表现优异，适用于艺术创作、虚拟场景生成、老照片修复、视频内容生成及数据增强等多种应用场景。

AI项目与工具 2025年06月12日 30 点赞 0 评论 434 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 443 浏览

AnyStory

AnyStory是阿里巴巴通义实验室开发的文本到图像生成工具，支持单个或多个主体的高保真图像生成。其核心在于“编码-路由”架构，结合ReferenceNet和CLIP视觉编码器实现主体特征的精准建模与定位。通过解耦路由机制，有效避免多主体混淆，确保图像与文本描述高度一致。适用于创意设计、角色生成、广告制作等多个场景，提供高质量、个性化的图像生成能力。

AI项目与工具 2025年06月12日 42 点赞 0 评论 578 浏览

MetaMorph

MetaMorph是一款基于多模态大模型的工具，通过Visual-Predictive Instruction Tuning（VPiT）技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异，能够克服其他生成模型的常见失败模式，同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势，支持多模态数据的高效处理，并在视觉生成与理解基准测试中取得竞争力表现。

AI项目与工具 2025年06月12日 53 点赞 0 评论 599 浏览

视觉生成

首页

视觉生成

列表

默认

浏览次数

发布日期