计算机视觉

MARS

MARS是一款由字节跳动开发的优化框架，专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术，并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式，可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域，能有效加速模型收敛并提高训练稳定性。

AI项目与工具 2025年06月12日 79 点赞 0 评论 716 浏览

VideoPhy

VideoPhy是一款由UCLA和谷歌研究院联合开发的基准测试工具，旨在评估视频生成模型的物理常识能力。它包含688条描述性字幕，通过人类和自动评估方式，衡量生成视频是否符合物理规则。VideoPhy不仅揭示了现有模型的不足，还推出了自动评估工具VideoCon-Physics，以推动模型性能的提升。其应用场景广泛，包括视频生成模型开发、计算机视觉研究、教育与培训以及娱乐产业等。

AI项目与工具 2025年06月12日 84 点赞 0 评论 720 浏览

Hi3DGen

Hi3DGen是由多所高校与企业联合开发的高保真3D几何生成框架，可从2D图像生成具有丰富细节的3D模型。其核心技术包括图像到法线估计、法线到几何学习及3D数据合成，采用两阶段生成流程并结合3D高斯散射与SDF重建技术，提升模型精度与细节表现。适用于游戏开发、影视制作、3D可视化等多个领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 727 浏览

Pixelhunter

Pixelhunter 是一个可让您从 2D 图像创建逼真的 3D 模型的平台。您可以上传任何照片并在几分钟内获得高质量的 3D 模型。

3D&游戏 2025年06月05日 20 点赞 0 评论 730 浏览

Move AI

Move AI 是一款基于AI和计算机视觉的无标记动作捕捉工具，可将普通摄像头拍摄的2D视频转换为高精度3D运动数据。支持实时追踪、多摄像头配置及多种格式导出，适用于影视、游戏、体育分析、VR/AR等领域，提供高效、低成本的解决方案。

AI项目与工具 2025年06月12日 35 点赞 0 评论 736 浏览

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具，通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整，并采用扩散模型生成高质量视频内容。具备用户友好的交互方式，适用于视频编辑、游戏开发、教育及广告等多个场景。

AI项目与工具 2025年06月12日 74 点赞 0 评论 736 浏览

AI Creator

AI Creator 元偶AI创作平台。

Ai绘画生成 2025年06月05日 74 点赞 0 评论 738 浏览

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型，集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器，支持跨模态数据融合与灵活任务处理。通过掩码学习策略，提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域，具有高度交互性和灵活性。

AI项目与工具 2025年06月12日 49 点赞 0 评论 738 浏览

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架，可将单张全景图像转化为动态视频，并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器（Panoramic Animator）和时空重建技术，结合 360World 数据集进行训练，实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用，适用于虚拟旅游、影视制作、游戏开发等多个领域，提供高效的沉

AI项目与工具 2025年06月11日 20 点赞 0 评论 739 浏览

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架，基于DINOv2模型，能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态，支持身份和表情的解耦，并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

AI项目与工具 2025年06月11日 88 点赞 0 评论 743 浏览

计算机视觉

首页

计算机视觉

列表

默认

浏览次数

发布日期