架构

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

Imagine Yourself

Imagine Yourself是一款由Meta公司开发的个性化AI图像生成模型,无需针对特定用户进行调整即可生成高质量、多样化的图像。该模型采用了合成配对数据生成和并行注意力架构,提升了图像质量和文本对齐的准确性。主要功能包括无需特定微调、生成合成配对数据、并行注意力架构以及多阶段微调过程。应用场景广泛,包括社交媒体个性化、虚拟试衣间、游戏和虚拟现实、广告和营销以及艺术创作辅助。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

OpenCity

OpenCity是一个由香港大学联合华南理工大学和百度共同研发的交通预测模型。该模型采用了Transformer架构和图神经网络,通过大规模预训练学习交通数据中的时空依赖关系,具有卓越的零样本预测能力和快速情境适应能力。OpenCity能够有效处理不同空间区域和时间的城市交通模式,并具备良好的可扩展性。其应用场景包括交通流量预测、交通拥堵分析、公共交通优化以及智能交通信号控制等。

Yi

Yi-Coder是一款由零一万物开发的开源AI编程助手,支持52种主流编程语言,能够处理长达128K tokens的上下文。它在多个代码生成基准测试中表现优异,尤其在LiveCodeBench平台上的表现尤为突出。Yi-Coder在代码编辑和补全方面也有卓越的表现,适用于各种开发项目,帮助开发者提高工作效率。 ---

xLAM

xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。该模型具备多语言支持、预训练模型、迁移学习、自然语言处理等主要功能,并基于 Transformer 架构实现。它在多个基准测试中表现出色,适用于自动化任务、模板共享、插件开发和教育等多个应用场景。

FluxMusic

FluxMusic 是一个开源的音乐生成工具,能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构,通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型,具备文本到音乐生成、语义理解、多模态融合等功能,适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

LlamaCoder

LlamaCoder 是一个基于 Llama 3.1 405B 模型的开源 AI 工具,能够快速生成全栈应用程序。它集成了 Sandpack、Next.js、Tailwind 和 Helicone 等组件,支持代码沙盒、应用路由、样式设计和可观测性分析。LlamaCoder 可根据用户请求生成组件,适用于构建多种类型的应用程序,并支持数据分析和 PDF 分析。

GameGen

GameGen-O 是一款基于 Transformer 架构的AI工具,专注于开放世界游戏视频的生成。它具备角色生成、环境构建、动作模拟及交互式控制等功能,通过两阶段训练方法提升了生成质量和灵活性,可应用于游戏原型设计、场景生成及开发辅助等领域,有助于降低开发成本并提高创作效率。