文本到图像

Sana

SANA是一个由NVIDIA、麻省理工学院和清华大学共同研发的文本到图像生成框架,支持生成高达4096×4096分辨率的高清图像。它采用了深度压缩自编码器、线性扩散变换器(Linear DiT)和小型语言模型作为文本编码器,并通过优化的训练和采样策略提升了生成效率。SANA在模型大小和运行速度上具备显著优势,适合多种应用场景,包括艺术创作、游戏开发、广告设计和科学研究等。

Ideogram 2.0

Ideogram 2.0 是一款文本到图像的AI工具,能够将文字转化为高质量的视觉内容。该工具支持多种风格选择,包括写实、设计、3D和动漫,具有强大的语义理解能力和先进的文本渲染技术。通过Magic Prompt功能,用户可以输入中文提示词并自动翻译优化。此外,该工具还提供API和搜索功能,支持用户和开发者进行深度集成。

Dream Lab

Dream Lab是一款基于人工智能技术的文本到图像生成工具,由Canva推出并依托于收购的AI初创公司Leonardo.ai的技术支持。它能够通过解析用户输入的简单文字描述,生成包括3D渲染、插画等多种风格的高质量图像。此外,Dream Lab还支持参考已有图片进行优化,并提供灵活的尺寸选择与编辑功能,适用于社交媒体、广告营销、品牌设计以及教育培训等多个场景。

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型,通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术,实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展,并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

ART

ART(Anonymous Region Transformer)是一种新型多层透明图像生成技术,支持基于全局文本提示和匿名区域布局生成多个独立透明图层(RGBA格式)。通过逐层区域裁剪机制,显著提升生成效率,速度快于传统方法12倍以上。具备高质量自编码器,支持50层以上的图像生成,减少图层冲突。广泛应用于艺术设计、内容创作、广告营销及科研等领域。

Image

Image-01 是一款由 MiniMax 开发的文本到图像生成模型,能够根据文本描述精准生成高质量、高分辨率图像,支持多种纵横比输出。具备优秀的人物与物体渲染能力,适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成,单次最多输出 9 张图像,每分钟处理 10 个请求,提升创作效率。采用扩散模型与 Transformer 架构,结合线性注意力与 MoE 技术,确保图像质量与生成效率。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

Yodayo

Yodayo 是一个面向动漫爱好者和虚拟主播的在线AI艺术创作平台,主要功能包括文本到图像生成器、模型选择、探索页面以及虚拟聊天室。用户可以通过输入文本提示词,利用AI技术生成高质量的动漫风格图像。该平台鼓励创意分享和社区互动,提供直观的用户界面和先进的AI技术,激发用户的创意灵感。

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型,具备17亿参数,支持多种图像风格生成,包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色,适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构(MoE),并集成多种文本编码器,实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源,便于研究与应用。

SNOOPI

SNOOPI是一种基于增强单步扩散模型的文本到图像生成框架,通过PG-SB和NASA技术提高了模型的稳定性和控制力。它在多方面表现出色,包括提高生成效率、排除不期望的图像元素、支持多种模型背板以及生成高质量图像。SNOOPI广泛应用于数字艺术、游戏开发、广告、社交媒体和影视等领域。