HART

简介：HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型，能够生成1024×1024像素的高分辨率图像，质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块，HART实现了高效的图像生成，并在多个指标上表现出色，包括重构FID、生成FID以及计算效率。

AI小编 588 阅读 0 评论 93 点赞

项目地址

HART（Hybrid Autoregressive Transformer）是由麻省理工学院的研究团队开发的一种自回归视觉生成模型。它能够直接生成分辨率为1024×1024的高精度图像，其质量接近于扩散模型。HART采用了混合Tokenizer技术，将自动编码器的连续潜在表示划分为离散token和连续token，其中离散token用于捕捉图像的基本结构，而连续token则专注于细节表现。此外，HART的轻量级残差扩散模块仅包含约3700万个参数，大幅提升了计算效率。在MJHQ-30K数据集上，HART的重构FID从2.11下降到0.30，生成FID从7.85下降到5.38，性能提升了31%。同时，其吞吐量相较于现有扩散模型提高了4.5至7.7倍，MAC值降低了6.9至13.4倍。

本文分类：AI项目与工具
本文标签：AI 图像生成自回归模型高分辨率混合Tokenizer 计算效率扩散模型视觉内容数据集机器学习
浏览次数：588 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10220.html

评论列表共有 0 条评论

暂无评论

HART

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复