模型

TryOnDiffusion

TryOnDiffusion就谷歌推出的一项新虚拟试穿功能,能够实现高度逼真的虚拟试穿,用户能够直观地看到不同体型的人穿着不同尺寸的衣服效果如何。

乾元BigBangTransformer

BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。

DeepSider

DeepSider 是一款集成在浏览器侧边栏的 AI 对话工具,支持多种顶级 AI 模型如 GPT-4o、Grok3 和 Claude 3.5。用户可通过简洁交互完成复杂任务,包括 AI 搜索、实时问答、内容创作、翻译和代码生成等。该工具支持文档上传分析,结合最新数据提供准确答案,具备快速响应和高效交互设计,适用于提升工作效率和学习效率。

Claude2

Claude是Anthropic公司开发的一系列人工智能模型。这些模型使用了Transformer架构,并通过无监督学习、人类反馈强化学习(RLHF)进行训练。Claude模型可以理解和生成人类语言,用于各种任务,如回答问题、写作、编辑和编程。

LegoGPT

LegoGPT是一款由卡内基梅隆大学开发的AI工具,可根据文本描述生成稳定、可组装的乐高积木模型。它结合自回归语言模型与大规模数据集,支持自动纹理上色、物理稳定性验证及手动或机器人组装。该工具能有效提升创意设计效率,适用于教育、玩具开发及自动化生产等多个场景。

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术,能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化,结合动态权重平衡和多种损失函数,提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能,适用于室内场景、艺术风格转换及跨视图一致性任务。

腾讯混元

腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

T2V

T2V-Turbo 是一种高效的文本到视频生成模型,能够快速生成高质量视频,同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程,适用于电影制作、新闻报道、教育及营销等多个领域,支持从创意草图到成品视频的全流程加速。

HART

HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型,能够生成1024×1024像素的高分辨率图像,质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块,HART实现了高效的图像生成,并在多个指标上表现出色,包括重构FID、生成FID以及计算效率。