Transformer

MagicTryOn

MagicTryOn是由浙江大学和vivo等机构开发的视频虚拟试穿框架，采用扩散Transformer（DiT）架构替代传统U-Net，结合全自注意力机制实现视频时空一致性建模。通过粗到细的服装保持策略，整合服装标记与多条件引导，有效保留服装细节。该工具在图像和视频试穿任务中表现优异，适用于在线购物、时尚设计、虚拟试衣间等多种场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 502 浏览

PixWizard

PixWizard是一款基于自然语言指令的多功能图像处理工具，支持图像生成、编辑、翻译、修复等任务。通过基于流的Diffusion Transformer（DiT）模型及结构感知与语义感知指导，PixWizard能够高效处理各种视觉任务，并展现出强大的生成能力和泛化性能。

AI项目与工具 2025年06月12日 78 点赞 0 评论 500 浏览

FitDiT

FitDiT是一种基于Diffusion Transformers架构的高保真虚拟试穿技术，通过服装纹理提取器和先验演化技术精确捕捉服装细节，同时采用扩张-松弛掩码策略优化尺寸适配。它能在短时间内生成高质量的试穿图像，适用于电子商务、时尚设计、个性化定制以及增强现实等领域，为用户提供逼真的虚拟试穿体验。

AI项目与工具 2025年06月12日 97 点赞 0 评论 489 浏览

Fluid

Fluid是一种基于连续标记和随机生成顺序的文本到图像生成模型，具有卓越的视觉表现力和全局结构捕捉能力。它通过自回归架构和Transformer模型，逐步预测序列中的下一个元素，构建与文本提示相匹配的高质量图像。Fluid在多个基准测试中取得了优异成绩，并广泛应用于艺术创作、媒体娱乐、广告营销等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 485 浏览

混元hunyuan

腾讯发布的快思考模型，混元hunyuan-TurboS响应速度较前代产品提升了一倍，首字时延降低了44%。优化后的模型使得即时生成内容流畅，适用于知识、数理和创作等多方面应用。

Ai平台模型 2025年06月05日 69 点赞 0 评论 485 浏览

Jamba

Jamba是由AI21 Labs开发的基于Mamba架构的生产级别大语言模型，结合了结构化状态空间模型（SSM）和传统Transformer架构，具备高吞吐量和低内存占用的特点。Jamba拥有256K的上下文窗口，适用于处理长文本序列，并且以开放权重的形式发布，遵循Apache 2.0开源许可。该模型主要用于研究领域，未来将推出更安全的版本。

AI项目与工具 2024年01月01日 29 点赞 0 评论 480 浏览

Allegro

Allegro 是一款由 Rhymes AI 开发的文本到视频生成工具，可将描述性文本快速转化为高质量的动态视频内容。支持 720p 分辨率、15 FPS 帧率和最长 6 秒的视频输出，具有高时间一致性，适用于内容创作、广告营销、教育培训等多个领域，凭借先进的技术架构和强大的功能，成为视频生成领域的领先解决方案之一。

AI项目与工具 2025年06月12日 41 点赞 0 评论 476 浏览

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型，利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务，如音乐创作、声音效果设计及语音合成，并可通过ComposableART技术实现对声音属性的精细调控。此外，Fugatto擅长生成动态变化的声音景观，广泛应用于音乐创作、声音设计及广告音频制作等领域。

AI项目与工具 2025年06月12日 44 点赞 0 评论 473 浏览

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架，支持多种场景下的对象无缝融合，如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练，具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制，适用于创意设计与数字内容生成领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 473 浏览

MAGI

MAGI-1是一款由Sand AI开发的开源视频生成大模型，采用自回归架构，支持高效、高质量的视频生成，具备高分辨率输出、无限扩展能力和可控生成特性。适用于内容创作、影视制作、游戏开发等多个领域，技术上融合了自回归去噪、Transformer VAE、扩散模型等创新方法，提升生成效率与稳定性。

AI项目与工具 2025年06月11日 37 点赞 0 评论 470 浏览

Transformer

首页

Transformer

列表

默认

浏览次数

发布日期