视觉生成 - 智狐AI导航

Comflowy

Comflowy 是一个专注于将 ComfyUI 工作流转化为实用工具的平台，提供超过 100 个预安装的扩展，支持多种主流 AI 模型，包括一些闭源模型。它具备强大的云 GPU 支持，用户友好的界面设计以及灵活的节点系统，帮助用户高效管理和生成高质量的工作流，适用于多种应用场景，如室内设计、快速手绘生成、艺术风格转换及视频生成等。

AI项目与工具 2025年06月12日 70 点赞 0 评论 864 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 926 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 980 浏览

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型，整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构，支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集，利用残差向量量化和深度变换器提升表示能力，适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 1445 浏览

视觉生成

首页

视觉生成

列表

默认

浏览次数

发布日期

Comflowy

MineWorld

DanceGRPO

VILA

视觉生成 首页 视觉生成

列表 默认 浏览次数 发布日期

Comflowy

MineWorld

DanceGRPO

VILA

视觉生成

首页

视觉生成

列表

默认

浏览次数

发布日期