LoRA

In

In-Context LoRA是一种基于扩散变换器(DiTs)的图像生成框架,通过微调少量数据实现多样化图像生成任务。它无需修改原始模型结构,减少了对大规模标注数据的依赖,同时保持了高质量的生成效果。该工具支持多任务图像生成、上下文学习能力、任务无关性以及条件图像生成等功能,适用于故事板生成、字体设计、家居装饰等多个领域。

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。

MagicTailor

MagicTailor 是一款基于 DM-Deg 和 DS-Bal 技术的新型 AI 工具,支持组件可控的个性化图像生成。它能够动态干扰不需要的视觉语义,平衡概念与组件的学习,从而显著提升生成图像的质量和控制精度。MagicTailor 的核心功能包括组件可控个性化、动态掩码退化、双流平衡、解耦生成及多组件控制,适用于广告、游戏、电影制作等多个领域。

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型,支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应(H-LoRA)、分层视觉感知(HVP)和三阶段学习策略(TLS),可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景,具有良好的适应性和实用性。

OmniConsistency

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,旨在解决复杂场景下风格化图像的一致性问题。该模型采用两阶段训练策略,将风格学习与一致性学习解耦,并支持与任意风格的 LoRA 模块集成,实现高效且灵活的风格化效果。它在多种风格下保持图像的语义、结构和细节一致性,具备更高的灵活性和泛化能力,在实验中表现出与 GPT-4o 相当的性能。

MiniMind

MiniMind 是一款轻量级开源语言模型项目,具备极低的训练成本和高效的训练流程。其最小模型仅需 25.8M 参数,可在普通 GPU 上运行,支持多模态能力,如视觉语言模型 MiniMind-V。项目提供完整的训练代码,涵盖预训练、微调、LoRA、DPO 和模型蒸馏,兼容主流框架,适合初学者和开发者快速上手并应用于多个领域。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

SVDQuant

SVDQuant是一种由MIT研究团队开发的后训练量化技术,专注于通过4位量化减少扩散模型的内存占用和推理延迟。它利用低秩分支技术吸收量化异常值,支持DiT和UNet架构,并能无缝集成LoRAs。SVDQuant适用于移动设备、个人电脑、云计算平台及低功耗设备,可大幅提升图像生成和处理效率。

UnZipLoRA

UnZipLoRA是一种由伊利诺伊大学厄巴纳-香槟分校研发的图像处理技术,能够将图像内容与风格分离,并分别以两个LoRA模型表示。该技术通过提示分离、列分离和块分离策略,有效解决内容与风格纠缠的问题,支持高效训练和兼容性组合。可用于艺术创作、图像编辑、风格迁移及个性化图像生成等场景,提升图像处理的灵活性和可控性。

AigcCafe

AIGC Cafe 是一个专门为 Al 爱好者和开发者提供的平台,它提供了一系列的 AI 模型供用户使用和学习。