自动驾驶 - 智狐AI导航

Amodal3R

Amodal3R 是一种基于条件的 3D 生成模型，能够从部分遮挡的 2D 图像中重建完整的 3D 模型。通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层，提升了遮挡场景下的重建精度。该模型仅使用合成数据训练，却能在真实场景中表现出色，具有较强的泛化能力。广泛应用于 AR/VR、机器人视觉、自动驾驶及 3D 资产创建等领域。

AI项目与工具 2025年06月12日 39 点赞 0 评论 593 浏览

CityDreamer4D

CityDreamer4D是由南洋理工大学S-Lab开发的4D城市生成模型，通过分离动态与静态元素，结合模块化架构生成逼真城市环境。支持无边界扩展、风格化处理、局部编辑及多视角一致性，适用于城市规划、自动驾驶和虚拟现实等领域。采用高效鸟瞰图表示法与神经场技术，提升生成效率与质量。

AI项目与工具 2025年06月12日 55 点赞 0 评论 600 浏览

EfficientTAM是一款由Meta AI研发的轻量级视频对象分割与跟踪模型，基于非层次化Vision Transformer（ViT）构建，通过引入高效记忆模块显著降低了计算复杂度。它能够实现高质量的视频对象分割与多目标跟踪，同时保持较低的延迟和较小的模型尺寸，特别适用于移动设备上的实时视频处理。该模型已在多个视频分割基准测试中表现出色，并支持多种应用场景，包括移动视频编辑、视频监控、增强现

AI项目与工具 2025年06月12日 65 点赞 0 评论 606 浏览

DINO

DINO-X是一款由IDEA研究院开发的通用视觉大模型，具备开放世界对象检测与理解的能力。它支持多种提示类型，无需用户额外输入即可识别图像中的任意对象，并在多个基准测试中刷新了性能记录。DINO-X拥有Pro和Edge两个版本，分别针对高性能需求和边缘设备优化。其应用范围涵盖自动驾驶、智能安防、工业检测及机器人视觉等领域，助力行业创新与发展。

AI项目与工具 2025年06月12日 91 点赞 0 评论 615 浏览

WorldMem

WorldMem是由多所高校与研究机构联合开发的AI世界生成模型，通过引入记忆机制解决传统模型在长时间序列生成中的一致性问题。它支持动态环境模拟、多场景交互及长期一致性保持，适用于虚拟游戏、VR/AR、自动驾驶等多个领域，具备高度真实性和可扩展性。

AI项目与工具 2025年06月11日 47 点赞 0 评论 616 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 620 浏览

Oumi

Oumi 是一个开源 AI 平台，支持从数据准备到模型部署的全流程开发。它提供零样板代码体验，支持多种训练方法和多模态模型，适用于自动驾驶、人机交互、学术研究等多个场景。平台具备高效的分布式训练能力和灵活的部署选项，适合企业和研究机构使用。

AI项目与工具 2025年06月12日 26 点赞 0 评论 632 浏览

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 637 浏览

燧原科技

提供原始创新、具备自主知识产权的AI加速卡、系统集群和软硬件解决方案

创作工具 1970年01月01日 0 点赞 0 评论 644 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 669 浏览

自动驾驶

首页

自动驾驶

列表

默认

浏览次数

发布日期