模型

Matryoshka Diffusion Models

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的创新扩散模型,专为生成高分辨率图像和视频而设计。通过多尺度扩散机制与NestedUNet架构,MDM实现了高效的信息共享与渐进式训练,显著提升了模型的训练效率与生成质量。该模型适用于资源受限的环境,可减少训练步骤并保持生成图像的细节与清晰度。其主要功能包括高分辨率图像生成、多分辨率处理、特征共享以及渐进式训练

AIOOTD

AIOOTD是一款基于AI技术的时装生成平台,专注于将上传的服装照片转换为不同风格的AI时装图像,包括动漫、插画和写实风格。它支持图片上传、编辑、批量处理以及个性化定制,可直接适配社交媒体平台。该工具广泛应用于时装品牌推广、设计师作品展示、社交媒体内容创作及电商销售等领域,助力提升品牌形象和产品吸引力。

DiffBrush

DiffBrush是由多所高校与研究机构联合开发的图像生成与编辑工具,支持用户通过手绘草图直接控制图像生成过程。其核心技术包括颜色引导、实例与语义控制、潜在空间再生等,兼容多种主流T2I模型,如Stable Diffusion、SDXL等,并支持LoRA风格调整。该工具简化了AI绘画流程,提升了图像生成的精度与灵活性,适用于创意绘画、图像编辑、教育、游戏设计等多个领域。

OmniThink

OmniThink是由浙江大学与阿里巴巴通义实验室联合开发的机器写作框架,通过模拟人类学习和反思机制,提升文章的知识密度与深度。支持多种语言模型,具备信息树与概念池结构化管理功能,适用于学术写作、新闻报道、教育内容创作等多个领域,有效提高生成内容的质量与多样性。

Link·AI

Link·AI 是一款面向企业和个人的 AI 智能体开发平台,集成了多模态大模型、RAG 知识库和插件,支持零代码快速创建具备企业私有知识和高级任务执行能力的智能体。用户能够将 AI 应用轻松接入主流平台,广泛应用于客户服务、营销自动化、企业协作及个人助理等场景,助力提升运营效率和用户体验。

MiniCPM 3.0

MiniCPM 3.0是一款由面壁智能开发的高性能端侧AI模型,具有40亿参数。它采用LLMxMapReduce技术,支持无限长文本处理,增强了上下文理解能力。MiniCPM 3.0在Function Calling方面表现出色,接近GPT-4o的水平。该模型还包括RAG三件套,提升了中文检索和内容生成的质量。模型已开源,量化后仅占用2GB内存,适合端侧设备部署,保障数据安全和隐私。

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

BrushNet

BrushNet是一款基于扩散模型的图像修复工具,采用双分支架构处理遮罩区域。它能够实现像素级修复,保持修复区域与原始图像的一致性和高质量。BrushNet适用于多种场景和风格的图像,包括人类、动物、室内和室外场景,以及自然图像、铅笔画、动漫、插画和水彩画等。通过与预训练扩散模型结合,BrushNet提供灵活的修复控制,同时保留未遮罩区域的细节。

HumanDiT

HumanDiT是一种由浙江大学与字节跳动联合开发的高保真人体视频生成框架,基于扩散变换器(DiT)实现姿态引导的视频生成。它支持长序列、多分辨率视频生成,并通过关键点扩散变换器(Keypoint-DiT)确保动作的连贯性与自然性。引入前缀潜在参考策略以保持个性化特征,结合姿态适配器和细化模块提升细节质量。适用于虚拟人、动画制作、沉浸式体验及视频续写等多种场景。

LanDiff

LanDiff是一种结合自回归语言模型和扩散模型的文本到视频生成框架,采用粗到细的生成策略,有效提升语义理解与视觉质量。其核心功能包括高效语义压缩、高质量视频生成、语义一致性保障及灵活控制能力。支持长视频生成,降低计算成本,适用于视频制作、VR/AR、教育及社交媒体等多个领域。