ORM

PixArt

PixArt-Σ是一款基于扩散Transformer架构(DiT)的文本生成图像模型,专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法,不仅提升了生成图像的保真度,还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品,并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

Qwen2.5

Qwen2.5-Coder是一款开源代码生成模型,覆盖多种规模参数,支持超过40种编程语言,擅长代码生成、推理、修复及多语言支持。其旗舰模型在多项基准测试中表现优异,具备强大的长上下文处理能力和人类偏好对齐特性。适用于日常编程、代码学习、教育、代码审查及自动化测试等场景。

YAYI2

中科闻歌研发的一款新一代开源大语言模型,中文名为“雅意”。该模型包含 Base 和 Chat 版本,参数规模达到 30B,基于 Transformer 架构构建。

CogVideoX v1.5

CogVideoX v1.5是一款由智谱研发的开源AI视频生成工具,具备文本到视频生成、图像到视频转换等功能,支持高清视频输出及音效匹配。它通过三维变分自编码器(3D VAE)、Transformer架构等技术手段,提升了视频生成的质量与效率,适用于内容创作、广告营销、教育培训等多个领域。

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型,整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构,支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集,利用残差向量量化和深度变换器提升表示能力,适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

TripoSR

TripoSR是一款由Stability AI与VAST联合开发的开源3D生成模型,能够在不到0.5秒内从单张2D图像生成高质量的3D模型。基于Transformer架构和大型重建模型(LRM)设计,采用先进的图像编码、三平面NeRF表示及优化训练策略,支持无GPU设备运行。适用于游戏开发、影视制作、建筑设计、产品设计等多个领域,具有高效、高精度和广泛适用性的特点。

SmoothCache

SmoothCache是一种针对Diffusion Transformers(DiT)模型的推理加速技术,通过分析层输出的相似性实现自适应缓存和特征重用,有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点,支持图像、视频、音频及3D模型生成,并在多种应用场景中展现出卓越的性能表现。

iAsk Ai

一款先进的免费AI搜索引擎,可实现用户提出AI问题并获得即时、准确和 事实答案,而无需存储您的数据。

Edify 3D

Edify 3D 是 NVIDIA 推出的一款高效3D资产生成工具,能够从文本或图像输入快速生成高质量的3D模型。其主要功能包括支持文本到3D、图像到3D的转换,生成高分辨率纹理与 PBR 材质,并具备快速生成、UV贴图和材质图生成等特性。该工具通过多视图扩散模型、Transformer 模型及跨视图注意力机制实现精准建模,适用于游戏开发、虚拟现实、影视制作及建筑可视化等多个领域。

Etna模型

一个文字转视频的AIGC模型,Etna能够根据简短的文本描述生成相应的视频内容,支持生成时长为8-15秒的视频,且视频流畅度极高,每秒可达60帧。