模型

智谱清流

智谱清流是智谱AI推出的企业级AI智能体开发平台,旨在帮助企业快速构建和部署AI应用,实现业务流程的智能化升级。该平台基于智谱全模型矩阵,提供智能体构建、工作流

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型,采用潜在类别引导机制,通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调,支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

阿里达摩院遥感AI大模型

阿里达摩院遥感AI大模型是一个强大的遥感数据处理和分析平台,它通过提供丰富的数据资源、先进的AI工具和灵活的开发环境,为地球科学研究、环境监测、农业管理等领域提供了有力的...

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型,能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,提升了遮挡场景下的重建精度。该模型仅使用合成数据训练,却能在真实场景中表现出色,具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统,采用轻量级扩散模型,支持中英文及混合语音合成,具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模,可快速生成高质量语音,适用于教育、内容制作、语音交互等多个领域。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

神力霓裳

主要服务于古装剧,神力霓裳模型包含造型设计、妆发设计和纹样设计三大功能。通过设定朝代、性别、身份等条件,并输入相关提示词,只需2分钟即可生成妆造图片。

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型,具备多模态处理能力,可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等,适用于多种办公场景。通过大规模预训练与混合训练策略,龙猫在实际应用中展现出高效、精准的特点,有效提升工作效率与创新能力。

MovieDreamer

MovieDreamer是一个由浙江大学与阿里巴巴联合开发的AI视频生成框架,专为长视频设计。该框架结合自回归模型和扩散渲染技术,生成复杂的长视频内容。它支持多层次叙事一致性、高质量视觉渲染和多模态脚本,适用于电影预告片、VR叙事、教育视频和游戏内剧情等多种场景。

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。