ORM

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Fast3R

Fast3R是一种基于Transformer架构的高效多视图3D重建方法,可在单次前向传播中处理上千张图像,大幅提高重建效率并减少误差累积。支持多视图并行处理,具备高精度、强可扩展性和快速推理能力,适用于机器人视觉、增强现实、虚拟现实、文化遗产保护及自动驾驶等多个场景。

混元hunyuan

腾讯发布的快思考模型,混元hunyuan-TurboS响应速度较前代产品提升了一倍,首字时延降低了44%。优化后的模型使得即时生成内容流畅,适用于知识、数理和创作等多方面应用。

MAGI

MAGI-1是一款由Sand AI开发的开源视频生成大模型,采用自回归架构,支持高效、高质量的视频生成,具备高分辨率输出、无限扩展能力和可控生成特性。适用于内容创作、影视制作、游戏开发等多个领域,技术上融合了自回归去噪、Transformer VAE、扩散模型等创新方法,提升生成效率与稳定性。

MagicArticulate

MagicArticulate是由南洋理工大学与字节跳动Seed实验室联合开发的3D模型动画化工具,支持自动骨架生成、蒙皮权重预测及高质量动画输出。其基于自回归Transformer架构,结合Articulation-XL大规模数据集,实现对多样化3D模型的高效处理。适用于3D动画、游戏开发、VR/AR、工业设计等多个领域,显著提升动画制作效率与质量。

Natural Language Playlist

Natural Language Playlist 探索语言和音乐之间丰富而复杂的关系,并使用 Transformer 语言模型构建播放列表。由于没有更好的术语,音乐推荐是一种“闭门造车”的东西。

V-JEPA

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。

Jamba

Jamba是由AI21 Labs开发的基于Mamba架构的生产级别大语言模型,结合了结构化状态空间模型(SSM)和传统Transformer架构,具备高吞吐量和低内存占用的特点。Jamba拥有256K的上下文窗口,适用于处理长文本序列,并且以开放权重的形式发布,遵循Apache 2.0开源许可。该模型主要用于研究领域,未来将推出更安全的版本。

Insert Anything

Insert Anything是由多所高校联合开发的图像插入框架,支持多种场景下的对象无缝融合,如艺术创作、虚拟试穿和影视特效等。基于大规模数据集训练,具备高分辨率输出与语义一致性保障。用户可通过掩码或文本指令实现精准控制,适用于创意设计与数字内容生成领域。