BEV在自动驾驶中起到什么作用？近几年有哪些实践？

自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是：聚焦智能驾驶，紧盯行业前沿。

点击展示全部

[首发于智驾最前沿微信公众号]不同传感器看到的世界是不一样的，前视摄像头可以捕捉前方的红绿灯和车道线，环视摄像头则用于探测车身周围的盲区，激光雷达以三维点云描绘障碍物的形状，毫米波雷达则跟踪物体的移动速度。这些来自不同坐标系、不同信息格式的数据，要让它们协同工作，就必须先把所有信息翻译到同一种通用语言中。

BEV感知做的就是这件事。

BEV解决了什么问题？

BEV做的事情就是在车辆上方提供一个上帝视角的俯瞰图，将车辆周围的环境统一投影到一个以自车为中心的俯视坐标系中，形成一张全局的环境地图。传统的前视视角下，近处的物体大、远处的物体小，这种近大远小的透视效应不仅干扰了尺度判断，也让不同视角传感器之间的数据对齐变得困难。BEV俯视视角则消除了透视失真，让所有物体保持绝对且一致的尺度。

图片源自：网络

BEV还为多传感器搭建了一个共享的空间框架，摄像头图像提供如红绿灯的颜色、行人的姿态等语义信息；激光雷达点云则提供精确的几何形状；毫米波雷达提供速度信息。在BEV的统一坐标体系下，这些异质信息不再各自为政，而是被整合成一张既包含位置、又包含属性和动态信息的完整环境地图。

从技术演进的角度看，BEV感知经历了从几何变换到端到端学习的过程，BEV早期主要依赖逆透视映射将图像手工投影到地面，但这种基于假设地面平坦的方法在有坡度或颠簸路面时效果很差，误差会快速累积。后来的演进方向是让模型自己学习图像与BEV之间的对应关系，不再显式计算深度，而是通过Transformer等架构直接从数据中学习空间映射。

BEV几个标志性的技术突破

BEVFormer在2022年提出，是纯视觉路线的一个重要节点，它来自南京大学、上海人工智能实验室和香港大学的研究团队，其核心在于将Transformer架构引入BEV感知。BEVFormer建立了统一的BEV特征表征，融合了空间多视角信息与时间序列信息。

在BEVFormer中，预定义的BEV网格每个位置都有一个查询向量，它通过空间交叉注意力从当前时刻的多摄像头图像中提取对应位置的视觉特征，再通过时间自注意力与上一时刻的BEV特征进行交互，融合历史信息。这套机制在nuScenes测试集上取得了56.9% NDS的成绩，超过了当时的纯视觉方案，并与激光雷达基线性能相当，证明了纯视觉方案的潜力。

BEVFormer在工业界也获得了比较广泛的采用，地平线在其征程J6芯片上针对BEVFormer推出了多视图融合优化方案，提升了推理效率。SiFive官方在2025年7月宣布，其基于RISC-V架构的Intelligence XM平台（早期访问版本）已成功部署BEVFormer模型，并在QEMU仿真环境中实现了与PyTorch基线一致的准确率。这些实践证明了开源硬件架构处理自动驾驶感知负载的可行性。

图片源自：网络

与此同时，稀疏化感知的路线也在快速发展。BEV方法一直存在一个问题，那就是从图像空间到BEV空间的转换是稠密特征到稠密特征的重新排列，计算量与图像尺寸和BEV特征图尺寸强相关。在学术界常用的nuScenes数据集中，感知范围一般是长宽各100米的方形区域，但在实际场景中需要达到单向200米甚至更远才可以。如果保持BEV网格的分辨率不变，特征图的尺寸会大幅增加，车端的计算和带宽负载都会过重；如果保持BEV特征图尺寸不变，就需要用更粗的网格，感知精度就会下降。

地平线推出的Sparse4D系列算法正是针对这个问题，Sparse4D不再学习稠密的显式BEV特征，而是基于查询向量的实例特征和锚点进行整体的稀疏BEV感知。图像特征不进行显式的深度编码，模型基于锚点的中心点，通过偏移量学习将图像特征引入到实例特征中。这种方式大幅减少了不必要的计算，Sparse4D V2在nuScenes检测3D排行榜上达到了当时最优的效果，超越了BEVFormer v2等主流方法，在推理效率上也具备显著优势。目前Sparse4D系列算法已经全面开源。

图片源自：网络

在多模态融合领域，BEVFusion则极具代表性，它的思路是不试图将某种模态的数据强行转换到另一种模态的空间，而是为所有传感器建立一个统一的BEV空间作为共享基础。摄像头图像和激光雷达点云分别经过各自的骨干网络提取特征，转换到同一个BEV网格后，通过注意力机制进行特征级融合。这种方式有效结合了视觉的语义识别能力和激光雷达的几何测量能力。阿里云推出的自动驾驶模型训练加速框架PAI-TurboX，在BEVFusion的训练任务中可以将时间缩短58.5%，这在一定程度上说明了融合感知模型训练开销之庞大。

从纯感知走向工程部署

学术论文里的模型表现再好，到了车端算力有限、延迟要求严格的真实环境中，还得解决工程化的问题，这方面其实已经有不少企业拿出了值得关注的成果。

图片源自：网络

地平线和博世的合作就是一个典型案例，博世基于地平线征程6E/M研发的纵横辅助驾驶升级版，算力可达80TOPS或128TOPS，深度融合了BEV Transformer与占用网络感知算法，已获得5家车企的10多款车型定点。征程6系列芯片覆盖18TOPS到560TOPS的算力范围，可以说这是BEV算法大规模上量的一个信号。

MAXIEYE的量产数据也值得关注，截至2025年6月，其量产出货超过100万套，背后是一套经过亿级公里验证的算法体系，其中包括自研的青云BEV感知网络和端到端路径决策技术。

知行科技则走了一条更轻量化的路线，其获国内某头部自主品牌五个泊车系统项目的定点，其中四个为海外项目，面向欧盟及东亚市场。这套方案仅以8TOPS的算力就完成了BEV感知功能的量产落地，成为业内第一个真正实现该能力并进入规模化应用的技术方案。知行科技系统的感知模块采用BEV三合一模型，具备对悬空障碍物如广告牌、雨棚等的识别能力，弥补了传统系统的检测盲区。为了满足全球不同市场的需求，知行科技在德国慕尼黑设立了独立研发中心，系统性地采集当地信息，累计构建了超过20万公里的行驶数据和550万张图像样本，覆盖25个不同国家和地区。

在轻量化方面的还有一个例子是Nullmax，其基于高通SA8775芯片的方案在48TOPS算力条件下，通过预计算投影索引固化2D-3D映射关系，显著降低了视图变换的计算量；在保证精度损失小于0.5%的前提下，实现了低算力平台上的高效推理。FastBEV++进一步展示了纯视觉BEV在部署效率上的提升，它在车规级硬件（如NVIDIA Tesla T4）上达到了超过134 FPS的实时性能，在nuScenes基准上取得了0.359 NDS的当时最优成绩，并且完全基于标准算子实现，不需要定制化的CUDA内核。

BEV之后，新的方向正在形成

BEV技术本身还在不断延伸，占用网络（Occupancy Network）就是其中一个重要的演进方向。BEV的3D目标检测本质上还是物体中心化的思路，回答的是这里有什么类别的物体这个问题，但对于不规则形状的障碍物、未被定义类别的异形物体，这种方法就会出现盲区。

占用网络可以直接将车辆周围环境划分为密集的3D体素网格，通过深度学习模型判断每个小立方体是否被占据，其不关心这是什么东西，只关心这里有没有东西。这种方式在应对长尾场景和未知障碍物时更为鲁棒。特斯拉从2022年开始在其FSD方案中引入了占用网络，该技术目前已在HW4.0平台上全面部署，同时也在为HW3.0硬件进行针对性的适配和优化。

图片源自：网络

BEV感知与大语言模型的融合也是一个很值得关注的趋势，部分研究机构正在探索将BEV感知与大语言模型端到端融合的方案，尝试增强系统对复杂场景的语义理解和推理能力。

长安汽车与重庆邮电大学联合团队在2024年CVPR自动驾驶国际挑战赛上提出的BeVLM算法，是行业首个将BEV感知和大语言模型进行端到端融合的方案。该方案使BEV特征与语言特征实现对齐，让大语言模型能够理解车身周围环境的空间关系，同时采用思维图技术建立感知、预测、决策的逻辑链条，模拟人类驾驶的推理过程，该方案在公开数据集上取得了第二名的成绩。

学术界也有一些相关探索，如慕尼黑应用科学大学提出的BEV-LLM模型，将多模态BEV特征接入参数规模较小的语言模型，用于驾驶场景的三维描述，使自动驾驶系统的决策过程更具可解释性。此外，还有研究团队在CARLA仿真环境中提出了BEVDriver模型，利用BEV特征作为感知输入，让大语言模型直接预测车辆的行驶轨迹。需要说明的是，目前这些工作多数还停留在学术竞赛和仿真验证阶段，距离量产上车还有一段距离。

图片源自：网络

此外，BEV也在向自动驾驶之外的领域延伸，跨维智能与香港中文大学（深圳）联合团队在2026年6月提出了Dexterity-BEV框架，其核心思路是把视觉输入、机器人状态和目标动作对齐到同一个参考系中。该框架通过引入对齐的顶点图表示、构建规范化的BEV对齐坐标系，以及建立跨本体、跨相机、跨数据集的时空数据对齐流程，让原本难以互通的机器人数据具备了规模化训练的基础。

该框架在仿真环境和四种不同的真实机器人平台上，针对叠纸盒、叠衣服、舀爆米花、递书等多个长程任务进行了测试，平均成功率达到89.9%。这说明BEV作为统一空间表征的方法论，其价值已经超出了自动驾驶本身的范畴。

BEV存在哪些挑战？

虽然BEV技术在过去几年取得了很大进展，将其推向真实复杂的开放场景仍然面临不少困难。

纯视觉BEV方案中的深度估计仍然是一个瓶颈，摄像头本身不直接提供深度信息，从2D图像特征到3D BEV空间的转换依赖于深度预测。虽然端到端的深度学习方法在驾驶数据集上表现不错，但深度估计的不准确性仍然是制约物体定位精度的关键因素，在雨雾天气下光学成像质量下降，这个误差还会进一步放大。

图片源自：网络

BEV感知模型的数据标注的成本同样很高，BEV感知模型需要大规模、高质量的三维标注数据，包括物体的三维边界框、速度、属性等信息，标注成本远高于二维图像标注。极端天气下的长尾场景数据更难采集，这限制了BEV模型在复杂环境下的泛化能力。

多传感器的时间同步和空间标定在工程实践中也很棘手，不同传感器的采样频率不同，数据帧之间可能存在毫秒级别的时间偏差，在高动态场景下会直接导致融合误差。

最后的话

从BEVFormer到Sparse4D，从纯视觉BEV到多模态融合，从占用网络到大语言模型的协同，BEV感知在短短几年内已经从一个概念演变为自动驾驶技术栈的中枢。它不仅解决了多传感器坐标对齐的工程难题，更重要的是重塑了机器理解空间的方式，当BEV开始赋能机器人操作、端到端规划乃至具身智能，我们看到，以自车或自主体为中心的俯视表征，正在成为连接物理世界与数字决策的统一语言。