DiT - 智狐AI导航

HunyuanDiT

腾讯旗下的混元文生图大模型全面升级并对外开，包含模型权重、推理代码、模型算法等完整模型,这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。升级后的混元文生图大模型

文生图 2025年06月26日 0 点赞 0 评论 392 浏览

Etna

是由七火山科技开发的一个平...

Ai视频生成 2026年06月29日 0 点赞 0 评论 727 浏览

Altered AI

Altered Studio Voice Editor允许用户通过将他们的声音更改为任何精心策划的组合声音或自定义声音来创建专业的声音表演。它还允许用户创建引人入胜的多角色表演和克隆他们的声音。...

创作工具 2026年06月29日 0 点赞 0 评论 645 浏览

PixArt-Σ是一款基于扩散Transformer架构（DiT）的文本生成图像模型，专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法，不仅提升了生成图像的保真度，还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品，并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

AI项目与工具 2024年01月01日 82 点赞 0 评论 887 浏览

Open

Open-Sora是一个开源视频生成模型，基于DiT架构，通过三个阶段的训练（大规模图像预训练、大规模视频预训练和高质量视频数据微调），生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT（Spatial-Temporal Diffusion Transformer）核心组件，利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程，供

AI项目与工具 2024年01月01日 97 点赞 0 评论 583 浏览

AuraFlow

AuraFlow v0.1是一款由Fal团队开发的开源AI文生图模型，拥有6.8B参数量。该模型通过优化的MMDiT架构提升了计算效率和可扩展性。AuraFlow在生成精确图像方面表现出色，特别是在物体空间构成和色彩表现上具有优势。此外，它采用了最大更新参数化技术，增强了学习率迁移的稳定性。AuraFlow支持文本到图像的生成，适用于艺术创作、媒体内容生成、游戏开发及广告和营销等多种应用场景。

AI项目与工具 2025年06月12日 35 点赞 0 评论 945 浏览

豆包AI视频模型

豆包AI视频模型包括PixelDance和Seaweed两款工具，分别基于DiT和Transformer架构。PixelDance擅长处理复杂指令和多主体互动，适合制作情节丰富的短片；Seaweed支持多分辨率输出，生成高质量、高逼真的视频，适用于商业领域。两者均提供多样化的风格选择和输出格式，满足不同场景需求。 ---

AI项目与工具 2025年06月12日 45 点赞 0 评论 666 浏览

OmniEdit

OmniEdit是一款基于多专家模型监督训练的先进图像编辑工具，支持七种核心图像编辑任务，包括对象替换、移除、添加、属性修改、背景替换、环境变化和风格转换。它能够处理不同宽高比和分辨率的图像，采用EditNet架构，提升了编辑的成功率和图像保真度。OmniEdit在自动与人工评估中表现优异，适用于专业设计、社交媒体内容创作、电子商务、新闻媒体等多个领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 903 浏览

Ruyi

Ruyi是一款基于DiT架构的图生视频大模型，支持多分辨率和多时长的视频生成，具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成，旨在降低动漫和游戏内容的开发周期和成本。目前，Ruyi-Mini-7B版本已开源。

AI项目与工具 2025年06月12日 17 点赞 0 评论 545 浏览

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术，基于扩散模型并引入单向块注意力机制（UniBA），有效降低内存消耗，支持超高分辨率图像生成。其采用扩散变换器（DiT）架构，具备灵活的图像上采样能力，并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 84 点赞 0 评论 622 浏览

DiT

首页

DiT

列表

默认

浏览次数

发布日期