当前位置：新闻 > 浪潮信息：自动驾驶多摄像头BEV场景表示论文入选CVPR 2022

浪潮信息：自动驾驶多摄像头BEV场景表示论文入选CVPR 2022

2022-07-05 13:18 来源：美通社作者：电源网

北京2022年7月4日 /美通社/ -- 近日，在国际计算机与模式识别会议CVPR 2022期间，浪潮信息AI团队提交的论文《Scene Representation in Bird's-Eye View from Surrounding Cameras with Transformers（基于Transformer的多摄像头BEV场景表示）》成功入选。论文提出了一种基于Transformer的图像-BEV特征转换框架，能够生成有效的环境表示，可以提升自动驾驶车辆对周围环境的感知能力。CVPR是计算机视觉领域三大世界顶级会议之一，今年线下注册参会人数达到了5641人。在论文方面，CVPR 2022共收到了8161篇投稿，最终接收了2064篇论文，接收率约为25.3%，论文研究方向涵盖目标检测、图像分割、医学影像、模型压缩、图像处理、文本检测等。

感知系统是自动驾驶车辆的"眼睛"，高效准确的感知模块可以提升自动驾驶车辆的安全性。相比价格较为昂贵的激光雷达设备，单目摄像头价格低廉，且能够捕捉丰富的环境信息。近年来，研究者们提出了鸟视图（Bird's Eye View map，简称BEV map）来简洁高效地表示车辆周围环境信息。直接将每张图像的检测结果通过摄像头参数转换到BEV下是一种直接、简单的鸟瞰图构建方法。然而，如何融合多摄像头结果形成统一、稳定的环境表示是十分困难的。

浪潮信息AI团队研究了如何利用环形摄像头阵列来对BEV视角的环境进行特征表示。他们设计了一种基于Transformer的编解码模块，将图像特征转换为对应的BEV特征。为验证转换后的BEV特征的有效性，论文引入了三个分割任务：车辆分割、道路分割和车道线分割。整个模型框架如下图所示，由环形摄像头阵列采集的图像，通过共享的图像编码器得到各种的图像特征。然后，CBTR（Camera-BEV Transformation）模块将图像特征转换为对应的BEV特征。最后，利用生成的BEV特征图，多个检测头分别完成各自的分割任务。

模型架构图

与之前的方法不同，基于Transformer的编解码结构可以将图像特征"翻译"为BEV特征。具体结构如下图所示。其中，Encoder模块旨在发掘不同摄像头之间的特征关联，Decoder模块旨在利用局部和全局信息将图像特征转换为有效的BEV特征。

CBTR模块流程图

研究团队在浪潮AI服务器NF5488A5上进行了框架的训练和测试。在对比实验中，研究团队在nuScenes数据集上对比了当前最好的LS模型，采用相同的输入图像配置和图像特征提取网络，测试结果证明论文的框架相比LS具有准确度和速度方面的优势。此外，这篇论文还进行了各种消融实验，证明相比于机器学习的位置编码，设计的固定编码方式取得了最优的检测性能。

本文方法与LS的分割结果示例对比

论文探究了图像特征转换为BEV特征后，进一步的BEV编码模块和分割任务模块的影响，并证实：转化后的BEV已有较强的编码能力，只需要轻量的进一步编码即可。同时，由于不同任务所关注的信息不同，更多参数的任务头模块往往能取得较好的检测结果。

该论文已被CVPR 2022自动驾驶研讨会（WAD）接收，CVPR2022 WAD旨在聚集学术界和工业界的研究者和工程师，讨论自动驾驶感知的最新进展。如想进一步了解这篇论文，请点击链接https://openaccess.thecvf.com/content/CVPR2022W/WAD/papers/Zhao_Scene_Representation_in_Birds-Eye_View_From_Surrounding_Cameras_With_Transformers_CVPRW_2022_paper.pdf下载全文。

浪潮信息自动驾驶多摄像头 BEV CVPR 2022

一周热门

2026电源网国际电力电子直播节全面启航

在数字浪潮与能源变革交汇的时代节点，领先的服务电源电子全产业的媒体和创新服务平台，电源网宣布第八届电源网国际电力电子直播
MPS发布业界首款同步降压DC/DC系列产品

近日，MPS芯源系统（NASDAQ代码：MPWR）发布业界首款支持24V工作电压的20A/25A/30A大电流同步降压D
三安光电卡位全球产业新周期

作为全球化合物半导体领域全产业链布局的主力军，三安光电正依托材料、外延、芯片设计、晶圆制造到封装测试的垂直整合优势，在光

浪潮信息：自动驾驶多摄像头BEV场景表示论文入选CVPR 2022

相关阅读

一周热门