生成模型 - 智狐AI导航

ILLUME

ILLUME是一款基于大型语言模型的统一多模态大模型，集成了视觉理解与生成能力，采用“连续图像输入 + 离散图像输出”架构，通过语义视觉分词器和三阶段训练流程，实现了高效的数据利用和多模态任务处理能力。模型能够无缝整合视觉理解与生成功能，广泛应用于视频分析、医疗诊断、自动驾驶及艺术创作等领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 890 浏览

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准，支持3D、4D、图像到视频（I2V）和文本到视频（T2V）等多种模态。它从可控性、质量和动态性三个维度进行评估，涵盖3000个测试样本，包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能，适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用，为研究

AI项目与工具 2025年06月12日 87 点赞 0 评论 787 浏览

TripoSF

TripoSF是由VAST推出的新型3D基础模型，采用SparseFlex表示方法和稀疏体素结构，显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率，使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示，TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

AI项目与工具 2025年06月12日 71 点赞 0 评论 787 浏览

千影QianYing

巨人网络发布的有声游戏生成大模型，主要包括游戏视频生成大模型YingGame和视频配音大模型YingSound。

Ai平台模型 2025年06月05日 58 点赞 0 评论 774 浏览

Mirageml

Mirageml是一家使用人工智能（AI）帮助创意人员设计 3D 资源和场景的公司，Mirage 的 AI 可以根据自然语言提示或草图生成逼真且高质量的 3D 模型。

3D&游戏 2025年06月05日 39 点赞 0 评论 772 浏览

PartCrafter

PartCrafter是一款先进的3D生成模型，能够从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件，并利用层次化注意力机制确保全局一致性。该模型基于预训练的3D网格扩散变换器（DiT），支持多部件联合生成、端到端生成和部件级编辑，适用于游戏开发、建筑设计、影视制作等多个领域。

AI项目与工具 2025年06月11日 66 点赞 0 评论 769 浏览

PromptLLM

一款AIGC提示工具。该工具通过仅几个输入的词语生成详细的图像，简化了创建详细图像的过程。

Ai提示指令 2025年06月05日 13 点赞 0 评论 766 浏览

PIKE

PIKE-RAG是由微软亚洲研究院开发的检索增强型生成框架，旨在提升复杂工业场景下的问答准确性与推理能力。通过知识原子化、多智能体规划等技术，支持多跳问题处理和创造性问题解决。适用于法律、医疗、金融等多个领域，具备结构化知识提取、动态任务分解及分阶段开发等核心功能，提高模型生成结果的可靠性和实用性。

AI项目与工具 2025年06月12日 72 点赞 0 评论 762 浏览

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型，基于预训练、微调和强化学习技术，可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格，具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量，无需人工标注。适用于音乐创作、教育、影视配乐等多种场景，提供多种模型规模选择，满足不同需求。

AI项目与工具 2025年06月12日 66 点赞 0 评论 755 浏览

Lumina

Lumina-Image 2.0 是一款开源图像生成模型，基于扩散模型与 Transformer 架构，具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像，支持中英文提示词，并具备强大的复杂提示理解能力。模型支持多种推理求解器，适用于艺术创作、摄影风格图像生成及逻辑推理场景，兼具高效性和灵活性。

AI项目与工具 2025年06月12日 27 点赞 0 评论 752 浏览

生成模型

首页

生成模型

列表

默认

浏览次数

发布日期