新闻中心
新闻中心
您现在的位置:首页 > 新闻中心
大模型来了主动驾驶还远吗?要害看“眼睛”
来源:欧宝体育最新登录网址    发布时间:2023-05-16 17:20:31

  感知体系是主动驾驶最重要的模块之一,被视为智能车的“眼睛”,对了解周围环境起到至关重要的作用。跟着深度学习以及传感器技能的开展,感知体系呈现出迅猛的开展趋势,出现出各种新技能,功能方针不断提高。本文将环绕感知体系架构、办法及应战,结合驭势科技的详细实践深化探求主动驾驶感知技能。

  方针的检测与盯梢是感知体系的两大根底使命,首要运用不同传感器数据输入,完结对周围障碍物的检测与盯梢,并将成果传递给下流规划操控模块完结猜测、决议计划、规划、操控等使命。下图1扼要描绘了此类使命的架构。

  主动驾驶感知范畴中常见的传感器首要有3类:摄像头、激光雷达,以及毫米波雷达。每种传感器都有其优缺点,也影响了不同公司对技能路途的挑选。

  其间,摄像头图画数据能以低价的本钱完结高分辨率的成像,能够供给丰厚的纹路信息,例如国内某造车新势力车型搭载的摄像头分辨率到达了800万像素。但摄像头对光照比较灵敏,夜晚或许极点气候下的图画往往对感知使命带来比较大的应战。别的,图画仅能供给2D信息,无法直接得到深度信息。在产业界,纯视觉技能路途以特斯拉为代表。

  相对摄像头,激光雷达往往比较稀少,机械激光雷达笔直分辨率一般仅为32线线不等,尽管固态、半固态激光雷达在不断提高分辨率,但相较图画来说依然比较稀少。其优势是能够供给深度信息,即给出每个激光点的间隔值,这一信息关于方针检测使命来说至关重要,由于方针检测使命需求得到周围交通参加者准确的方位信息。激光雷达也存在受限的运用场景,其关于雨、雪、雾等极点气候,乃至尘埃比较灵敏,难于穿透水珠、雪花、尘埃等,简略构成噪点,关于此类场景下的感知带来不小的应战。现在,国内造车新势力中现已广泛运用固态、半固态激光雷达。

  毫米波雷达和激光雷达相似,相同能勘探方针的方位及速度。和激光雷达比较,由于其波长较长,能够穿透细小颗粒,因而对极点气候等不是很灵敏,在雨、雪、雾等气候条件下仍能产生不错的作用。但受其原理影响,毫米波雷达对静态障碍物检测作用较差,分辨率也较低。

  现在,除特斯拉以纯视觉技能路途为主外,干流主动驾驶感知架构选用多传感器交融的计划,充分运用不同传感器的优势来提高感知精度。

  2D方针检测是从图画中猜测方针方位及类别的使命。2D方针检测网络可分为两个门户,即一阶段和二阶段网络。所谓一阶段网络是直接在特征层猜测方针的分类与方位,以YOLO系列为代表,其间YOLOV7网络取得了速度和精度的平衡,图2为YOLOV1的网络架构。二阶段网络以RCNN系列为代表,其思维是通过RPN网络生成候选区,再在候选区进步一步猜测方针的分类和方位,图3展现了Fast-RCNN网络架构。二阶段网络由于需求首要生成候选区,其核算量往往较大,速度较慢,但能取得更高的精度。在主动驾驶范畴,2D检测广泛运用于红绿灯检测、车道线检测等使命中。

  3D方针检测使命运用传感器输入猜测方针的3D方位信息、规范、方向及速度,对下流规划操控模块的避障、猜测决议计划至关重要。根据传感器输入的不同,可将其分为单模态和多模态办法。单模态只依托一种传感器输入完结检测使命,如直接在2D图画上猜测3D方针的纯视觉办法,以及在三维激光点云上完结检测的办法。多模态通过输入多种传感器数据,如图画、激光点云、毫米波点云,在网络层进行特征交融,完结3D方针检测使命。

  跟着标示办法的晋级,方针的表明由本来的2D框对角点表明进化成了3D坐标系下bounding box(鸿沟框)的表明 ,不同纬度表明了3D框的方位、规范、以及地面上的偏航角。有了数据,本来用于2D检测的深度神经网络,也能够依托监督学习用于3D方针框检测。

  焦距适中的相机,FOV是有限的,想要检测车身一周方针,就要布置多个相机,每个相机担任必定FOV范围内的感知。终究将各相机的检测成果通过相机到车身的外参,转化到共同的车辆坐标系下。

  但在有共视时,会产生冗余检测,即有多个摄像头对同一方针做了猜测(图4展现了多相机仰望图),现有办法如FCOS3D [3] ,会在共同的坐标系下对一切检测成果做一遍NMS,有重合的方针框仅留下一个分类方针得分最高。

  自下而上的办法,手头的信息看到哪算哪。图5来自CaDNN这篇文章,很好地描绘了这一类办法,包括Lift、BEVDet、BEVDepth。这类办法猜测每个像素的深度分布,有的办法为隐式猜测,有的办法运用LiDAR点云当监督信号(推理时没有LiDAR)。将多相机生成的深度图转化成车身四周的“点云”数据,有了点云就能够运用现有的点云3D方针检测器了(如PointPillars, CenterPoint)。

  此类办法先确认重视的当地,如特斯拉所选用的办法(如图6所示),简略来说就是先确认空间中要重视的方位,由这些方位去各个图画中“搜集”特征,然后做判别。

  如DETR3D(网络架构如图7所示),由一群可学习的3D空间中离散的方位(包括于object queries),根据相机表里参转化投影到图片上,来索引图画特征,每个3D方位仅对应一个像素坐标(会提取不同规范特征图的特征)。

  典型办法如BEVFormer(其原理图如图8所示),该办法预先生成稠密的空间方位(含不同的高度,且不随练习更新),每个方位投影到各图片后,会和投影方位部分的数个像素块产生交互来提取特征(根据Deformable DETR),比较于DETR3D,每个3D点能够提取到更多的特征。

  典型办法如PETR,该办法着重坚持2D方针检测器DETR的结构,探究3D检测需求做哪些适配。PETR相同运用稀少的3D点(来自object queries)来“查找”图画特征,但不像DETR3D或BEVFormer把3D点投影回图片,而是根据规范的attention模块,每个3D点会和来自悉数图片的一切像素交互。

  点云能供给丰厚的场景3D信息,广泛被主动驾驶企业所选用。根据神经网络对点云输入的不同表明,可将点云方针检测分为根据体素的办法,如SECOND、VoxelNet等;根据柱体的办法,如PointPillar等;以及根据点的办法,如PointRCNN等;根据点的办法往往核算量大,推理速度较慢,车端布置往往需求平衡速度和精度,SECOND和PointPillar是当时较为盛行的办法,图9展现了PointPillar的网络架构。而根据检测头的不同,又可分为anchor-based办法和anchor-free的办法,PointPillar以及SECOND均为anchor-based办法。Anchor-free办法以CenterPoint为代表,其思维是直接猜测方针的中心点,而无需生成预描框,图10展现了其网络架构。

  单模态方针检测往往受限于传感器的特性,现在主动驾驶范畴中广泛选用多模态,即多传感器交融的技能计划。根据Frustum视锥的检测器F-PointNet,首要在2D图画上提取2D框,以此过滤出视锥区域的点云,再运用PointNet网络进行分类和方位猜测,此办法依靠2D检测器的精度,而且速度较慢。

  多传感器交融(MV3D)运用了图画、点云仰望图,以及点云平视间隔图(Range Image)作为输入,别离对三种视图提取特征,并在仰望图上生成3D Proposal,运用3D Proposal提取对应的其他模态的特征图,终究将三种模态的特征交融,在交融后的特征层猜测方针方位。其网络架构如图11所示。

  MV3D类办法在特征交融阶段各个模态的维度不尽相同,如图画特征为二维特征,而点云特征为三维,使得特征交融较为困难。近年来,根据BEV视图的交融计划逐步盛行,其根本思维是将各个模态的特征转化到BEV空间进行交融,BEV交融办法在多传感器交融方面占有了主导地位。现在根据网络架构不同,BEV交融办法首要可分为两类,一类是根据DETR-based办法,代表作业如FUTR3D等,图12展现了FUTR3D的网路架构;另一类是BEV-based办法如BEVFusio等,图13给出了BEVFusion的网络架构。

  在主动驾驶感知使命中,咱们除了需求猜测方针的方位、分类等信息外,还需求给出方针的速度和运动方向,即对方针进行接连的盯梢。当时方针盯梢首要有两种技能计划,一种是以卡尔曼滤波技能为根底,首要对方针进行相关,再运用卡尔曼滤波器猜测方针的速度方向。另一种是以深度学习网络为根底,通过接连帧时序网络来猜测方针的速度、方向。

  近年来方针检测算法飞速开展,精度取得了极大提高,但依然面临许多应战,包括长尾问题、怎么应对极点气候等。

  感知使命是典型的长尾问题,这已成为业界共同。怎么发掘长尾问题事例,并继续提高技能才能是感知范畴重视的要点。近年来业界广泛认同通过数据闭环的办法来处理长尾问题。根据学习的办法依靠数据的输入,而实际国际杂乱多变,很难穷举出一切场景,这就依靠高效的数据闭环体系,有用发掘长尾场景,堆集满意的高价值场景数据,并能够快速完结模型的迭代更新,图14展现了一种十分极点的场景,即带着锥桶移动的卡车。

  主动驾驶感知遇到的另一大应战是极点气候。无人车要想不间断运营,不可防止会遇到雨、雪、雾等极点气候,而极点气候会对传感器数据构成极大影响,然后影响感知的准确性,乃至构成主动驾驶不可用。感知有必要处理极点气候带来的应战,然后完结全天候运转才能。夜间大雨天可能会构成摄像头成像含糊,如图15所示,此刻从图画取得安稳感知成果反常困难。而激光雷达在极点气候下简略产生很多噪声,如图16所示,此刻怎么防止漏检和误检变得反常扎手。

  从近年来业界的开展来看,感知技能的演进首要朝着两个方向开展。一方面是以建立高效的数据闭环体系为主,处理长尾问题,通过云端大模型、大数据完结高效数据发掘与模型迭代。另一方面不断开展车端模型架构,用更杂乱的模型架构来提高感知精度,这一方面跟着Transfomer架构所展现出来的强壮才能,以根据Transformer的BEV交融感知为代表,出现出了不少优异的作业。

  在多模态交融感知方面,咱们自研了图画、点云交融网络。图17给出了网络的示意图。咱们以长时序点云和图画数据作为输入,别离运用2D和3D特征提取网络对应模态的特征,并在特征级进行交融。网络首要会在点云和图画特征上别离猜测2D和3D方针方位及分类信息,终究通过将点云投影到图画进步行方位相关、深度查找以及3D方位批改等办法,终究输出交融的3D方针。

  该交融网络的特点是轻量,可在嵌入式渠道到达实时功能。咱们充分运用了大规模的预练习模型来提高图画分支的才能。多模态交融感知网络往往需求同步的点云、图画数据,而此类数据往往比较稀缺,对数据同步精度要求较高,联合标示也愈加贵重,周期更长。自研网络在此方面显现出了十分高的灵活性。 在量化评价中发现,该交融战略对感知间隔和分 类精度较纯点云网络提高十分显着,而且在雨天等极点气候场景下有十分强的鲁棒性,图18中展现了咱们运用该网络在低线+米的安稳感知。

  在BEV感知方面,咱们自研了根据多相机的纯视觉BEV感知网络,其架构如图19所示。咱们的结构以长时序、多视角相机捕捉到的图片为输入。时序多帧、多视角的图片会由图画根底网络,例如ResNet生成多规范的特征。整个结构是根据query查询向量,经由Transformer网络完结特征搜集。query向量会通过self-attention和cross-attention来更新特征,通过多层解码器后,更新后的query会被用来猜测终究的3D方针类别、方位、巨细、旋转以及速度信息。咱们规划了时空对齐且核算稀少的cross-attention模块,使得咱们的网络取得先进精度的一起又具有实时性的工业布置潜力。该模型在nuScenes视觉3D方针检测排行榜中取得第三名的成果(2022),图20和图21别离展现了该网络在Nuscenes数据集的评价成果及其可视化成果。

  以往根据点云的实例切割使命首要分为proposal-base和proposal-free办法。proposal-based办法依靠于方针检测器的功能,而proposal-free的办法由于选用启发式的聚类办法,耗时比较高。因而,咱们提出了一种新颖的Panoptic-PHNet点云全景切割网络,该网络猜测实例的中心点,而无需object-level使命的学习,其网络架构如图22所示。该作业在nuScenes的全景切割应战赛取得第一名的成果,论文当选CVPR 2022。在取得高精度的一起,该网络推理速度到达数十FPS,满意了实时性的要求,图23给出了该网络与其他揭露办法的比照成果。

  数据闭环的意图是构成场景数据到算法的闭环,到达快速提高感知功能的意图。其涉及到多个方面,例如怎么发掘高价值场景数据,怎么提高标示功率,以及模型的快速布置验证等。环绕这个方针,驭势数据闭环体系可归纳为以下几个方面:根据主动学习的数据发掘、主动标示、半监督练习、云端练习布置体系等几个方面,图24总结了数据闭环体系的根本结构:

  数据闭环的首要使命是怎么发现corner case场景。为处理这个问题,咱们提出了根据主动学习的办法来识别体系未很好了解的场景。其根本思维是用不确认性来衡量模型的检测作用,筛选出不确认性高的方针场景。咱们从不确认度和类别均衡两个维度来衡量场景的不确认性。其间不确认度包括类别的不确认度以及方位的不确认度。

  点云数据的标示本钱十分贵重,一起标示周期也很长,影响模型的迭代功率。为此,咱们提出了一种主动化的标示办法,使得标示功率成倍提高,大大缩短了模型迭代周期,一起节省了本钱。其主动标示流程如图27所示。

  通过功率评价,咱们发现主动标示可提高标示功率到达人工标示的5-10倍,一起得到近似的模型精度。标示功率得到显着提高,图28展现了主动标示的作用。

  主动、半主动标示东西能够显着提高标示功率,但大规模的数据标示依然需求耗费不小的人力本钱。因而,咱们也在探究半监督、无监督的练习办法。咱们希望能够运用少数的数据标示,对模型进行半监督的练习,一起模型精度能够到达全量数据标示的水平。图29描绘了半监督练习的结构。

  第一步,咱们标示少数的数据,并用该少数标示数据练习Student网络和Senior Teacher网络。

  第二步,用少数数据迭代后的Student2网络在Teacher网络,以及Sensor Teacher的监督下运用未标示的数据进行半监督练习。

  咱们通过量化剖析,发现通过半监督练习的网络精度能够取得和全量数据标示差不多的作用。而且通过半监督办法,能够进一步下降标示本钱。

  图30赤色框为标示Ground Truth成果,绿色框为通过半监督练习后猜测的成果,能够看到半监督练习的猜测成果根本上和Ground Truth共同。

  在敞开路途中不可防止地遇到各式各样的corner case,洒水车就是其间之一。洒水车产生的很多水雾在激光雷达点云上会产生很多的噪点,一起也会对摄像头成像产生巨大搅扰。咱们通过数据闭环堆集了很多数据,通过多传感器交融、以及数据增强手法有用处理了此类问题。图31展现了当无人车穿越洒水车的场景,感知体系安稳感知到了左前方的洒水车,并成功穿越了水雾。

  此外,极点气候下的练习数据往往难于获取。为此,咱们提出了一种数据增强战略,来模仿雨、雪、雾天的数据。图32是在正常点云数据中引进数据增强后模仿的雨天数据。

  通过量化评价发现,在引进极点气候数据增强后,模型在极点气候数据上提高十分显着。如图33所示,在雨天数据上,引进数据增强后模型可正确检测出方针(赤色框),而未引进数据增强模型则产生漏检(黄色框)。

  主动驾驶感知技能无论是纯视觉技能路途仍是多传感器交融技能路途都在朝着特征前交融、端到端大模型以及打造高效数据闭环的方向开展,也取得了长足进步。信任跟着深度学习技能的开展以及算力不断提高,感知问题会得到更好的处理,推进主动驾驶向全天候、全无人的方针跨进。

  耿秀军,驭势科技感知算法研制主管。2011年在电子科技大学取得核算机硕士学位。之后在英特尔亚太研制中心从事GPU图形体系研制作业。于2016年参加驭势科技至今,担任感知算法的研制、架构规划与优化作业,参加驭势科技多个无人驾驶项意图落地,具有多项主动驾驶相关专利。

  李金珂,驭势科技主动驾驶感知算法架构师,担任环境感知、方针检测、盯梢等高功能感知算法开发。曾开发全景切割算法Panoptic-PHNet获nuScenes panoptic challenge冠军,并于核算机视觉会议CVPR宣布论文。

  张丹,博士,2016年参加驭势科技,现在任定位感知部分总监。带领团队对主动驾驶定位和感知方面的算法、结构、产品及根底设施进行了继续创新和优化,为驭势主动驾驶产品在全场景、全天候、真无人的商业化落地奠定了坚实根底。他具有几十项国表里专利。

  彭发展,驭势科技联合创始人,首席架构师,专心于为主动驾驶供给最优的体系处理计划,让主动驾驶有用、安全和牢靠。曾是英特尔Edison芯片渠道首席体系架构师和英特尔我国研究院机器人试验室主任,现在致力于无人驾驶商业化。驭势科技已在机场物流、工厂物流、微公交等多个无人驾驶范畴进入商业化运营。