文本到图像

VITRON

VITRON是一款由多家顶尖机构联合研发的像素级视觉大型语言模型,具备强大的图像与视频处理能力,涵盖理解、生成、分割及编辑等功能。它融合了编码器-LLM-解码器架构、视觉-语言编码和视觉专家系统,支持多种视觉任务,广泛应用于图像编辑、视频创作、教育辅助、电商营销和新闻报道等领域。

CSGO AI

CSGO是一项由南京理工大学等机构合作研发的图像风格迁移与文本到图像生成研究项目。其主要功能包括图像驱动的风格迁移、文本驱动的风格化合成及文本编辑驱动的风格化合成。项目通过端到端训练模型、特征注入技术及扩散模型,实现高效且高质量的图像生成,广泛应用于艺术创作、数字娱乐、设计行业及广告营销等领域。

SANA 1.5

SANA 1.5是由英伟达联合多所高校研发的高效线性扩散变换器,专用于文本到图像生成任务。其核心优势包括高效的训练扩展、模型深度剪枝、推理时扩展等技术,能够在不同计算预算下灵活调整模型性能。支持多语言输入,并具备开源特性,适用于创意设计、影视制作、教育等多个领域。实验表明,其生成质量接近行业领先水平,同时显著降低计算成本。

StoryMaker

StoryMaker 是一款基于 Stable Diffusion XL 模型和 LoRA 技术的文本到图像生成工具,专为保持连续图像中角色一致性而设计。其核心功能包括角色一致性维护、多角色处理、高质量图像生成及叙事创作支持。通过深度学习和面部特征识别技术,StoryMaker 能够生成细节丰富、视觉一致的图像,广泛应用于漫画、游戏、影视制作及广告创意等领域。

AnyPaint

AnyPaint是一款集成了文本到图像、图像编辑及3D模型生成等功能的AI图像生成工具,支持多种创作需求。其主要功能包括绘画生成、一键AI操作、模型库管理、IP-Adapter插件应用等,能够满足不同用户的创作需求,同时提供本地化工具提升创作效率。

PersonaMagic

PersonaMagic 是一种基于文本条件策略的人脸生成技术,通过动态嵌入学习和双平衡机制实现高保真个性化图像生成。该工具可依据文本提示调整人脸风格、表情和背景,同时保持身份特征。支持单图像训练,降低数据需求,并可与其他模型结合使用。实验显示其在文本对齐和身份保持方面表现优异,适用于娱乐、游戏、影视及营销等多个领域。

Piclumen

Piclumen 是一款基于AI的图像生成工具,支持文本转图像、图像风格化、背景移除及图像修复等功能,可生成多种艺术风格的高质量图像。其高分辨率输出和便捷操作使其广泛应用于社交媒体、广告设计、艺术创作、游戏开发及教育领域,适合各类用户快速实现视觉创意。

ImageFX

ImageFX是一款由谷歌开发的基于人工智能的文本到图像生成工具,利用先进的技术生成高质量图像。其主要功能包括文本到图像生成、Expressive Chips快速调整关键词、高质量图像生成能力、SynthID数字水印以确保图像真实性和内容安全措施,如过滤暴力、冒犯内容及个人图像生成。

MDM

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架,通过嵌套UNet架构实现多分辨率联合去噪,支持从低分辨率到高分辨率的渐进式训练,显著提升高分辨率图像生成效率,适用于多种应用场景,如数字艺术创作、游戏开发、电影制作等,并具备出色的零样本泛化能力。

Gendo

Gendo是一款结合生成式AI技术的建筑可视化平台,通过生成对抗网络(GANs)和扩散模型等手段,帮助设计师快速创建逼真的建筑概念图,并支持从草图到最终图像的全周期操作,具备生成性编辑、风格迁移和文本到图像生成等功能,旨在提升设计效率与视觉沟通质量。