图像

SDXL

SDXL-Lightning是一种基于扩散模型的文本到图像生成技术,由字节跳动的研究团队开发。该模型通过结合渐进式和对抗式蒸馏方法,能够在一至少数步骤内快速生成1024像素分辨率的高质量图像。该模型提供开源模型和权重,支持与现有的LoRA模块和控制插件兼容,可以轻松集成到现有的图片生成系统中。核心技术包括扩散模型、渐进式蒸馏、对抗式蒸馏和鉴别器设计,以确保生成图像的质量和多样性。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AnimateDiff

AnimateDiff是一款由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员共同开发的框架,旨在将文本到图像模型扩展为动画生成器。该框架利用大规模视频数据集中的运动先验知识,允许用户通过文本描述生成动画序列,无需进行特定的模型调优。AnimateDiff支持多种领域的个性化模型,包括动漫、2D卡通、3D动画和现实摄影等,并且易于与现有模型集成,降低使用门槛。

Make

Make-A-Character(简称Mach)是由阿里巴巴集团智能计算研究院开发的3D数字人生成框架,通过文本描述快速生成逼真的3D角色。该系统支持灵活的定制化、高度逼真的渲染、完整的角色模型及动画支持。其工作流程包括文本解析、视觉提示生成、参考肖像图像生成、密集面部坐标检测、几何生成、纹理生成、纹理修正、头发生成、资产匹配和角色装配。Mach生成的角色模型可以无缝集成到游戏和电影行业的标准CG

DiffusionGPT

DiffusionGPT是一款基于大型语言模型的开源文本到图像生成系统,由字节跳动与中山大学联合开发。它采用思维树和优势数据库技术,能够解析和处理多样化的文本提示,生成高质量图像。系统通过多模型的选择与集成、基于人类反馈的优化以及高效的图像生成执行,实现了从文本到图像的无缝转换。DiffusionGPT适用于多种应用场景,具有广泛适用性和灵活性。

ImageFX

ImageFX是一款由谷歌开发的基于人工智能的文本到图像生成工具,利用先进的技术生成高质量图像。其主要功能包括文本到图像生成、Expressive Chips快速调整关键词、高质量图像生成能力、SynthID数字水印以确保图像真实性和内容安全措施,如过滤暴力、冒犯内容及个人图像生成。

DemoFusion

DemoFusion是一个技术框架,旨在低成本生成高分辨率图像。该框架通过扩展现有的开源生成人工智能模型(如Stable Diffusion),使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下,将模糊的低分辨率图像转化为高清晰度图像。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制,确保高分辨率图像生成的同时,保持图像的全局语义一致性和细节质量。适用于艺术创作、游戏开发、电影

Freepik Pikaso

Freepik Pikaso是一款实时AI绘画生成工具,它通过人工智能技术让用户能够通过简单草图和描述性文字实时生成艺术作品。该工具具备实时绘画创作、描述性艺术生成、图标和元素库、摄像头和屏幕共享、播放模式以及图像质量提升等功能。适用于设计师、艺术家、插画家、内容创作者、营销和广告专业人士以及非专业用户。

InstantID

InstantID 是一种基于扩散模型的图像生成技术,专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。该技术允许用户仅使用一张面部图像,在多种风格中生成个性化的图像,同时确保高保真度。其主要功能包括个性化图像合成、身份特征保留、风格迁移、新视角合成、身份插值和多身份合成。InstantID 兼容预训练模型,无需额外微调即可实现灵活的图像生成。

MagicVideo

MagicVideo-V2是一款由字节跳动公司团队开发的AI视频生成模型和框架。该模型通过集成文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,实现了从文本到高保真视频的转换。生成的视频不仅具有高分辨率,而且在视觉质量和运动流畅度方面表现出色,为用户提供卓越的观看体验。