DUSt3R DUSt3R是一个由芬兰阿尔托大学和Naver欧洲实验室联合研发的3D重建框架。该框架能够快速地从任意图像集合中重建出三维场景,无需事先了解相机校准或视点位置信息。DUSt3R主要功能包括快速3D重建、无需相机校准、多视图立体重建、单目和双目重建以及生成深度图、置信度图和点云图。它采用了点图表示法、Transformer网络架构和端到端训练方式,并提出了全局对齐策略来处理多视图重建任务。 AI项目与工具 2024年01月01日 53 点赞 0 评论 179 浏览
HRAvatar HRAvatar是由清华大学联合IDEA团队推出的单目视频重建技术,能够从普通单目视频中生成高质量、可重光照的3D头像。它采用可学习的形变基和线性蒙皮技术,结合精确的表情编码器和物理渲染模型,实现高精度重建和实时渲染(约155 FPS)。支持材质编辑、跨视角渲染和动画化,适用于数字人、虚拟主播、AR/VR、游戏开发和影视制作等领域。 AI项目与工具 2025年06月11日 43 点赞 0 评论 503 浏览
LBM LBM(Latent Bridge Matching)是一种基于潜在空间桥接匹配的图像到图像转换框架,支持目标移除、图像重光照、深度图生成等多种任务。通过布朗桥和随机微分方程实现高效且多样化的图像转换,具备良好的可控性和视觉一致性。适用于摄影、设计、3D建模等多个领域,具有广泛的应用前景。 AI项目与工具 2025年06月11日 40 点赞 0 评论 378 浏览
OmniCam OmniCam 是一种基于多模态输入的高级视频生成框架,结合大型语言模型与视频扩散模型,实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入,精确控制摄像机运动轨迹,具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果,并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域,提高视频创作效率与质量。 AI项目与工具 2025年06月12日 18 点赞 0 评论 384 浏览
LHM LHM是由阿里巴巴通义实验室推出的3D人体模型重建系统,能从单张图像快速生成高质量、可动画化的3D人体模型。基于多模态Transformer架构,融合3D几何与2D图像信息,保留服装与面部细节,并采用3D高斯点云表示方式,支持实时渲染和姿态控制。适用于AR/VR、游戏开发、影视制作及教育等多个领域,具备高保真、强泛化和低延迟等优势。 AI项目与工具 2025年06月12日 93 点赞 0 评论 413 浏览
SpatialLM SpatialLM 是一款由群核科技推出的开源空间理解多模态模型,能通过分析普通手机拍摄的视频生成详细的 3D 场景布局,涵盖房间结构、家具摆放等信息。它结合大语言模型与点云重建技术,实现空间认知与语义标注,并支持低成本数据采集。该模型适用于具身智能训练、AR/VR、建筑设计等多个领域,具备物理规则嵌入和结构化场景生成能力。 AI项目与工具 2025年06月12日 82 点赞 0 评论 128 浏览
Matrix3D Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型,集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器,支持跨模态数据融合与灵活任务处理。通过掩码学习策略,提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域,具有高度交互性和灵活性。 AI项目与工具 2025年06月12日 49 点赞 0 评论 374 浏览
GAS GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。 AI项目与工具 2025年06月12日 36 点赞 0 评论 335 浏览
AuraFusion360 AuraFusion360是一款面向360°无边界场景修复的AI工具,采用高斯散射表示和深度感知技术,实现高质量的物体移除与孔洞填充。其核心包括自适应引导深度扩散(AGDD)和基于SDEdit的细节增强,确保多视角一致性。适用于虚拟现实、建筑可视化、影视特效及文物修复等多个领域,提供高效、精确的场景修复解决方案。 AI项目与工具 2025年06月12日 57 点赞 0 评论 349 浏览