图像

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

Freepik Mystic

Freepik Mystic是一款由Magnific AI和Freepik合作开发的AI图像生成工具,它能够生成高分辨率(1,664 x 2,432)的全高清图像,涵盖写实肖像、动物、风景、奇幻场景、室内设计、建筑概念、像素艺术、游戏元素和表情包等多种类型。图像由顶尖艺术家策划并经过微调优化,确保高质量输出。用户可以通过Freepik Premium订阅使用该工具,并期待其未来集成到Magnifi

Omages

Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码到64×64像素的2D图像中。该工具不仅提高了3D对象生成的效率,还在低分辨率下保留丰富的细节。Omages支持3D对象生成、几何和纹理编码、多图谱表示以及自动材质生成等功能。它适用于3D打印与制造、虚拟现实、增强现实、游戏开发、电影和动画制作及室内设计等多种应用场景。

SuperCraft

SuperCraft是一款基于生成式AI技术的无限协作画布设计平台,能够将手绘草图或文本描述转化为高质量的2D图像和3D渲染。平台提供3D模型导出功能,支持团队协作,具备3D渲染和可视化能力,简化复杂项目的节点式流程设计,旨在提升设计师的工作效率和设计质量。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

TrackGo

TrackGo是一种先进的AI视频生成技术,利用自由形状的遮罩和箭头提供精确的运动控制。其核心技术TrackAdapter无缝集成到预训练的视频生成模型中,通过调整时间自注意力层来激活与运动相关的区域。TrackGo在视频质量、图像质量和运动忠实度方面表现出色,适用于影视制作、动画制作、虚拟现实(VR)、增强现实(AR)和游戏开发等多个领域。

Imagine Yourself

Imagine Yourself是一款由Meta公司开发的个性化AI图像生成模型,无需针对特定用户进行调整即可生成高质量、多样化的图像。该模型采用了合成配对数据生成和并行注意力架构,提升了图像质量和文本对齐的准确性。主要功能包括无需特定微调、生成合成配对数据、并行注意力架构以及多阶段微调过程。应用场景广泛,包括社交媒体个性化、虚拟试衣间、游戏和虚拟现实、广告和营销以及艺术创作辅助。

DistriFusion

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理,它能够在不增加额外训练负担的情况下,将推理速度提升高达六倍,同时保持图像质量。其技术原理包括Patch Parallelism(分片并行)、异步通信、位移补丁并行性等,适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

StyleShot

StyleShot 是一个开源的AI图像风格迁移模型,能够实现文本和图像驱动的风格迁移。它利用风格感知编码器和内容融合编码器,捕捉和再现风格细节,生成高质量的风格化图像。主要应用场景包括艺术创作、社交媒体、游戏开发和电影视频制作。

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成