计算机视觉

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型，能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层，提升了遮挡场景下的重建精度。该模型仅使用合成数据训练，却能在真实场景中表现出色，具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

AI项目与工具 2025年06月12日 39 点赞 0 评论 666 浏览

Avat3r

Avat3r 是由慕尼黑工业大学与 Meta Reality Labs 联合开发的高保真三维头部头像生成模型，基于高斯重建技术，仅需少量输入图像即可生成高质量且可动画化的 3D 头像。其核心优势在于使用交叉注意力机制实现表情动态化，支持多源输入，具备良好的鲁棒性和泛化能力。适用于 VR/AR、影视制作、游戏开发及数字人等领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 679 浏览

TripoSG

TripoSG 是一种基于大规模修正流模型的高保真 3D 形状生成技术，能够从单张图像生成高质量的 3D 网格模型。其核心优势包括高分辨率重建、语义一致性、强泛化能力和稳健的性能。通过混合监督训练策略和高质量数据集，TripoSG 实现了更精准的几何表示与细节还原。该技术适用于工业设计、VR/AR、自动驾驶、教育及游戏开发等多个领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 680 浏览

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型，采用潜在类别引导机制，通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调，支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 685 浏览

Wonder Animation是一款基于AI的视频到3D场景转换工具，由Autodesk的Wonder Dynamics研发。它能够将视频序列转化为包含摄像机设置和角色动画的3D动画场景，支持多剪辑和多种镜头处理。通过深度学习和计算机视觉技术，Wonder Animation在3D空间中重建场景，并确保动作和场景的高度同步与一致。此工具特别适合动画电影制作、视频游戏开发、虚拟制作以及增强现实和虚

AI项目与工具 2025年06月12日 43 点赞 0 评论 689 浏览

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型，结合SAM2与LLaVA技术，实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务，具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 697 浏览

AI百科-AIpedia.cn

AI百科 - 一起出发向未来！

AI写作对话 2026年06月29日 0 点赞 0 评论 703 浏览

FaceLift

FaceLift是一种由Adobe与加州大学默塞德分校联合开发的AI工具，能够从单张人脸图像中重建出高精度的3D头部模型。其核心技术包括多视图扩散模型和GS-LRM重建器，支持多视角一致性、身份保持和4D新视图合成，适用于虚拟现实、数字娱乐、远程交互等多个领域。该工具具备强大的几何与纹理细节表现能力，且可与2D面部重动画技术集成，广泛应用于内容创作与科研场景。

AI项目与工具 2025年06月12日 74 点赞 0 评论 710 浏览

StochSync

StochSync是一种基于扩散同步（DS）和分数蒸馏采样（SDS）的图像生成技术，适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法，兼顾图像细节与连贯性，无需额外训练即可生成高质量图像。支持高分辨率输出，适用于复杂几何纹理化任务。

AI项目与工具 2025年06月12日 65 点赞 0 评论 711 浏览

IMAGPose

IMAGPose是由南京理工大学开发的统一条件框架，用于人体姿态引导的图像生成。其核心功能包括多场景适应、细节与语义融合、灵活对齐及全局一致性保障。通过FLC、ILC和CVA模块，解决了传统方法在生成多样姿态图像时的局限性，适用于虚拟现实、影视制作、电商展示等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 714 浏览

计算机视觉

首页

计算机视觉

列表

默认

浏览次数

发布日期