视觉生成 - 智狐AI导航

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型，整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构，支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集，利用残差向量量化和深度变换器提升表示能力，适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 1337 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 846 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 830 浏览

Comflowy

Comflowy 是一个专注于将 ComfyUI 工作流转化为实用工具的平台，提供超过 100 个预安装的扩展，支持多种主流 AI 模型，包括一些闭源模型。它具备强大的云 GPU 支持，用户友好的界面设计以及灵活的节点系统，帮助用户高效管理和生成高质量的工作流，适用于多种应用场景，如室内设计、快速手绘生成、艺术风格转换及视频生成等。

AI项目与工具 2025年06月12日 70 点赞 0 评论 768 浏览

MetaMorph

MetaMorph是一款基于多模态大模型的工具，通过Visual-Predictive Instruction Tuning（VPiT）技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异，能够克服其他生成模型的常见失败模式，同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势，支持多模态数据的高效处理，并在视觉生成与理解基准测试中取得竞争力表现。

AI项目与工具 2025年06月12日 53 点赞 0 评论 667 浏览

AnyStory

AnyStory是阿里巴巴通义实验室开发的文本到图像生成工具，支持单个或多个主体的高保真图像生成。其核心在于“编码-路由”架构，结合ReferenceNet和CLIP视觉编码器实现主体特征的精准建模与定位。通过解耦路由机制，有效避免多主体混淆，确保图像与文本描述高度一致。适用于创意设计、角色生成、广告制作等多个场景，提供高质量、个性化的图像生成能力。

AI项目与工具 2025年06月12日 42 点赞 0 评论 652 浏览

GEN3C

GEN3C是由NVIDIA、多伦多大学和向量研究所联合开发的生成式视频模型，基于点云构建3D缓存，结合精确的相机控制和时空一致性技术，实现高质量视频生成。支持从单视角到多视角的视频创作，具备3D编辑能力，适用于动态场景和长视频生成。在新型视图合成、驾驶模拟、影视制作等领域有广泛应用前景。

AI项目与工具 2025年06月12日 23 点赞 0 评论 614 浏览

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 567 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 564 浏览

xAR

xAR是由字节跳动与约翰·霍普金斯大学联合研发的自回归视觉生成框架，采用“下一个X预测”和“噪声上下文学习”技术，提升视觉生成的准确性和效率。其支持多种预测单元，具备高性能生成能力，在ImageNet数据集上表现优异，适用于艺术创作、虚拟场景生成、老照片修复、视频内容生成及数据增强等多种应用场景。

AI项目与工具 2025年06月12日 30 点赞 0 评论 528 浏览

视觉生成

首页

视觉生成

列表

默认

浏览次数

发布日期