HART(Hybrid Autoregressive Transformer)是由麻省理工学院的研究团队开发的一种自回归视觉生成模型。它能够直接生成分辨率为1024×1024的高精度图像,其质量接近于扩散模型。HART采用了混合Tokenizer技术,将自动编码器的连续潜在表示划分为离散token和连续token,其中离散token用于捕捉图像的基本结构,而连续token则专注于细节表现。此外,HART的轻量级残差扩散模块仅包含约3700万个参数,大幅提升了计算效率。在MJHQ-30K数据集上,HART的重构FID从2.11下降到0.30,生成FID从7.85下降到5.38,性能提升了31%。同时,其吞吐量相较于现有扩散模型提高了4.5至7.7倍,MAC值降低了6.9至13.4倍。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部