EMMA是由Waymo开发的一款基于Gemini模型的端到端自动驾驶多模态模型。该模型能够直接将原始相机传感器数据转换为与驾驶相关的输出,例如规划轨迹、感知目标以及识别道路元素。EMMA通过将非传感器输入与输出表达为自然语言文本,并借助预训练的大型语言模型的知识库,在统一的语言空间内协同处理多种驾驶任务。尽管EMMA在nuScenes运动规划和Waymo开放数据集上的表现优异,但仍存在一些限制,如处理图像帧数量有限、缺乏精确的3D传感整合以及较高的计算成本。然而,它对推动自动驾驶架构的发展及提升复杂场景下的泛化与推理能力具有重要意义。
发表评论 取消回复