专题:2024中国汽车软件大会
11月7日-8日,2024中国汽车软件大会在上海嘉定召开。百度智能云自动驾驶决策巨匠徐征发饰演讲。
以下内容为现场发言实录:
尊敬的诸君请示、诸君客东说念主,亲爱的同仁们,环球下昼好!
相当简洁能有这么一个契机和环球一说念来分享百度智能云在汽车行业昔时一年来的一些探索和践诺,百度当作国内最早布局智能云和自动驾驶的企业,咱们一直积极地向行业输出居品、时间和干事,鼓励汽车智能化的快速发展。在昔时一年中,在汽车智能化的大方进取咱们可以看到接头最多的是大模子上车,第二个是端到端的自动驾驶,固然到咫尺为止,端到端在量产车辆上数目还相当少,然则咱们可以笃定的说端到端还是被合计是个行业共鸣的自动驾驶的时间道路。在端到端研发,包括在分模块的算力、数据包括器具链齐发生了一些相比大的变化。在昔时一年百度亦然在积极探索和蛊惑,围绕端到端自动驾驶的这么一个基础平台。
是以今天我思给环球分享的题目就叫作念《云智一体 助力自动驾驶时间的才智缓助,开启自主可控的新范式》。底下咱们看一下,这个是从一个概述的角度来先容一下咱们百度智能云自动驾驶处治决策的一个全景框架。在底层的话其实是咱们的公有云、独到云、边际云,由它提供基础的这么一个云干事、传统的这种CPU云。然后在之上的话,因为针对自动驾驶这么一个AI算力需求,咱们有一个AI的大底座,这里进行AI计较、存储、汇集、加速,包括AI的容器。
然后在这个底座之上会有一个异构的计较平台,这个异构计较平台背面我会讲到它为什么相当珍重,况兼在可预见的改日应该是决定着在大模子这么一个AI算力上才智的上下。其实这个底下就像一个冰山相同,底下这一部分是埋在水下的,谈的相比少,其实这些是百度确切花了很大的力气来打造的一个平台。之上的话是环球构兵相比多的,亦然驳斥相比多的,和诸君这种智驾的尤其研发工程师相比紧密的,像器具链包括各式的应用场景,这是一个伸开来看的一个系统架构。
今天我要分享的主如果两部分,第一个是AI的底座,这一部分是因为这部分和咱们昔时一年的趋势,也即是咱们端到端自动驾驶包括大模子上车紧密磋磨的,况兼这一部分是在赶快发展,这一部分有相比高的一个门槛。第二部分是个自动驾驶器具链,这一部分器具链亦然因为和诸君同仁使命磋磨相比紧密,是以今天我的分享主要围绕这两部分伸开。
率先,咱们从上至下。在器具链层面,百度在3年前就率先发布了这么一个叫作念自动驾驶云或者叫汽车云的1.0版块,其时这个1.0版块针对的是一个传统的智驾蛊惑的这么一个模子或者叫作念范式。也即是说,它是一个基于这么一个感知、规控分模块的模式,咱们来进行数据的积蓄、数据的纳管,然后进行模子的覆按、进行仿真、终末模子的上车,打造咱们叫作念数据闭环。这亦然前两年很热点的话题,束缚加速这么一个数据飞轮。
这个平台的一个特色,这里有几个数据,一个是在这个平台上期骗了通过AI进行自动驾驶的预标注,数据的预标注,可以达到92%的准确率,这部分可以大略缩小东说念主工标注本钱50%。同期,撑抓这么一个数百PB的数据的全生命周期的托管。然后撑抓周级别的算法的迭代,这是其时的1.0版块。
到了2.0之后,也即是自动驾驶慢慢走向量产之后,然后碰到了多量的在量产当中的长尾问题,针对这些问题咱们推出了2.0版块。2.0版块特色,它是基于提供更多的包括场景的遮掩、数据的遮掩,包括咱们百城的舆图数据的遮掩,千级以上的数据挖掘的类型、千万公里仿真场景,包括千万级的场景库的构建,悉数这些更多的是处治自动驾驶问题当中的这些量产长尾问题。
最近一年,不时着这个趋势,更多的元气心灵咱们花在这个端到端和车路协同,也即是咱们当今提到的3.0版块。3.0版块主要针对的一个是端到端,端到端其实它和大模子有许多的相似方位,咱们知说念大模子齐有一个叫scaling laws,scaling laws内部有两个珍重的维度,一个是数据一个是算力。针对数据,咱们有端到端这么一个数据生成,来撑抓端到端的仿真,来提供这种海量准确的数据。第二部分,针对这个算力其实咱们打造了百度的百舸,加上咱们我方蛊惑的昆仑芯国产GPU来撑抓端到端覆按算力的需求。
另外是路侧数据的买通,这部分我背面会提到,它相当珍重。因为咱们作念端到端、作念自动驾驶其实咱们对准的是L4,传统这种单车智能在L4上会有表面上的颓势,这亦然为什么咱们一直在强调车路协同。背面我会伸开,先容一下这几个特色、这几个秉性到底在说什么。
一个是端到端的这么一个仿真,其实在传统的仿简直话,它更多仿的是规控门径,然则到出现问题的时候,这些工程师更多是调汇集或者调数据,从这两方面进行优化。然则到端到端之后有很大变化,出现Corner Case的时候,可能咱们并不需要调汇集,汇集是保抓不变的。把更多的优先级或者元气心灵放在这些数据的优化上,也即是说咱们需要更多精确的海量数据(维权),这些数据从何处来?有两个部分,第一部分即是咱们还是在路侧,千万公里路侧还是有一个多量的场景库,包括这些视频、点云等等多量的数据,中枢的问题是奈何把这些有用的数据挖掘出来,这里就有个大模子的智能搜索平台。
第二部分是长余数据合成,只是靠路侧积蓄的话这个本钱相当高的,跟着时间的发展其实咱们发现当今可以自动生成一些场景、自动生成一些数据,况兼效果也还可以。这个时候咱们有一个叫作念数据生成的一个平台,同期还有一个仿真场景,也即是咱们基于这么一个端到端的仿真,它更多是基于这么一个真实场景的场景级别的效果考据,而不再是只是考据规控这个门径,这是撑抓端到端的仿真。
第二个是撑抓端到端的覆按,覆按来讲咫尺最大的一个瓶颈或者痛点就在算力,咫尺骨子上是一个暴力的计较,然后在算力方面主要围绕着3个方面作念缓助,第一个叫作念异构芯片的多芯混训,背面我会提到,也即是说咱们把不同厂家、不同型号的这些芯片把它组在一说念、构成一个集群,这个集群可以让它完成归拢个任务,这么可以极地面利用历史钞票。
第二个是全链路模子的覆按优化,这么是缓助利用率。许多东说念主买了多量的GPU卡之后,其实这个集群的利用率是很低的,多量的时刻包括算力齐是处于悠然状态,在这种情况下咱们通过软件的方式缓助集群的利用率,也即是变相的你可以买到更多的卡。
第三个,撑抓一个超大集群的,也即是万卡集群的闲隙的覆按,这一部分蛮横常珍重,因为量变产生质变,当一个万卡集群的时候是不可幸免地出现各式故障。若何让这个故障不影响覆按的效果或者不影响覆按的着力,是在端到端覆按内部要处治的一个相当珍重的问题。
第三部分,车路云协同,其实咱们发现不论在高速如故在城市内部其实有多量说念路的一些数据,这些数据对自动驾驶相当有匡助。百度也一直在和监管部门包括一些说念路钞票的运营部门在妥洽,把这个车的数据和交通的数据能够买通,这么的话可以使自动驾驶能够愈加的安全、高效。
这个是咱们直不雅来看一下,这个器具在干什么,因为时刻的干系我就不放视频。第一个,左边部分看到的是智能搜索,传统的搜索环球如故靠打标签的方式,结构化的一些标签,这个是费时劳作的。还有一个更大的问题,跟着时间的迭代有些标签它不成得志需求了,还要再从头打一遍。这种情况下本钱蛮横常高的,然则咱们发现跟着昔时一年说话大模子、视觉大模子时间的发展,然后咱们在探索是不是可以把这些时间不时起来提高数据搜索的着力。在此基础上咱们打造了一个基于视频特征库和图片特征库,同期不时语义的信息,然后完成这种跨模态的搜索,这方面比如这里左侧叫以图搜图。比如我有一个很难描摹的场景,假定说即是一辆车,它长得很奇怪,这个车我不知说念奈何描摹它,以前也莫得打过标签,这个时候最浅陋的一个方式即是我去丢几张图片,它长的什么样,然后去搜一下。如果效果不好的话再丢几个反例的图片,这么把以前可能需要花周级别或者月级别的这么一个数据挖掘的任务,完毕到这种分钟级别或者秒级别,这个叫作念智能搜索。
第二个,难例的挖掘。这部分主如果以文搜图,也即是譬如说你可以通过语义和图片和这个视觉的不时,来定向挖掘各式难例数据。比如说这里,咱们这个非凡类型的环境感知,比如说缓和路面碰到车辆。还有非凡的复杂的一些场景,比如在夜晚骑着电动车等红绿灯的东说念主,然后还包括这种空间干系的组合、细致化的搜索,比如在这里即是一个堆积货色的货车,相当侥幸的是语义大模子可以相识什么是堆积货色,是以咱们可以径直搜索出来堆积货色的货车。它就可以把它细致地给挖出来,这些齐为大模子或者端到端提供了这些准确的和海量的数据。
然则光靠现存的数据,也即是咱们传统的模式下的说念路积蓄、数据挖掘,它不成得志端到端的条目,原因即是因为端到端模子覆按它其实对数据的遮掩度条目相当高。这种情况下,其实咱们就探究到在进行探索这种智能场景的数据生成,况兼效果蛮横常好。这里包括比如舍弃动态元素,这种场景也即是说咱们通过积蓄之后,把这些动态元素消惶恐以后得到一个更为通用的、更为基础的一个场景,在这个场景上咱们不时着第四条,也即是重叠臆造元素就可以形成无独有偶的泛化的真实场景来供模子进行覆按,包括不同的角度,比如说主车的视角,包括改换天气环境等等,这些齐相比好相识,因为时刻干系视频不逐个播放,这个看上去还蛮横常直不雅的。
同期,在一个端到端的仿真内部,另一个缓助即是咱们在仿简直时候除了这种对规控的仿真,除了对单车的仿真除外,再更多的是针对这个场景的一个全体效果的考据,或者说一方面来讲是针对单车来讲它不再是只考据规控门径,而是考据某个场景下的端到端的效果。
第二部分,从单车到通盘宏不雅的角度,因为环球齐知说念百度在作念Robotaxi,咱们作念萝卜快跑,萝卜快跑追求生意化,在这种仿真内部它相当温柔的极少是运营的着力,在运营的着力内部它除了单车的智能除外,咱们更多的要看比如咱们在北京投放一辆车、投放一个车队,和在武汉投放一个车队,它们的交通流是透顶不相同的,我奈何样提高全体的车队的安全度、提高全体车队的运营着力,其实触及到的即是更宏不雅的或者咱们叫作念交通流的模子。在交通流内部咱们及时地积蓄交通真实的景色。
第二个,可以来建模,也即是说在这个环境内部不同的交通参与者他们的一些行径模式,然后束缚和真实情况来作念对比,从而提高自动驾驶的着力。咱们自动驾驶最终是对准L4的,L4最珍重的一个场景或者绝大多数的一个场景其实是分享出行,也即是Robotaxi,在分享出行内部不单是看到单车,咱们要看到通盘车队的、通盘城市的运营着力。
刚才一部分更多先容器具链,这部分跟业务紧密磋磨。底下这一部分先容更多的是咱们叫作念百舸平台,也即是咱们的AI大底座,AI大底座更多处治的是算力的问题。就像刚才提到的,在算力问题中第一个来讲即是异构芯片的多芯覆按,这部分处治的问题是,咱们知说念许多车厂包括这些自动驾驶公司其实齐买了多量的卡,然则这个卡是在不同期期买过来的,有英伟达的卡、有国内的卡,英伟达的卡有不同的型号。
现存的口头基本上是归拢类型的卡或者归拢型号的卡构成一个小集群,这个集群内部完成一个单一的任务,比如完成一个推理任务、一个覆按任务。然则跟着芯片的束缚迭代之后,这种芯片的厂家和它的型号越来越复杂,若何让这些不同型号甚而不同厂家的这些卡在一个集群内部启动,这是一个相当珍重的问题。这个问题难度其实相当大,环球知说念GPU卡的话,不同的供应商从他们的通信条约、架构、算子库齐是不兼容的,百度作念了一项使命,基础型的使命,即是咱们把悉数这些卡把它兼容起来。第一步完毕的,也即是在单一集群内部各式不同厂家的卡、不同型号的卡可以混布在一说念作念覆按。
第二部分,这件使命天然也可以去作念,前提是这么作念下去不会变成性能的亏空。性能亏空很好相识,比如性能高的这些卡在完成任务的时候它跑的快一些,它跑完之后它就等,等着那些性能差的这些卡再提交任务。这个时候这些性能差的卡就形成了一个瓶颈,咱们若何来舍弃这些瓶颈,这是一个相当基础性的使命。通过昔时一年的时刻,咱们可以作念到在万卡集群算力亏空少于3%,也即是说基本上你可以看不到各别。
当咱们完成了集群的混布之后,还有一个珍重的课题即是算力的利用率是很低的,咱们若何来提高算力的利用率,算力利用率很低背面根蒂的原因即是,在GPU内部它的计较这一部分的性能蛮横常高的,然则它的存储和汇集这部分性能相对来讲弱一些。是以频频变成计较任务完成之后在等数据,这么恭候的时刻占了多量的时刻,这个时候变成性能的瓶颈。
是以说,针对利用率的缓助,其实咱们作念了多重的优化使命,包括显存优化、算子优化、存储优化和汇集优化,这些我就不逐个伸开,因为这些相当工程化,包括这些并行优化。然则环球可以思象的即是,它和交通流的模式相当相似的。也即是说我有多个任务的话,当它莫得一个很好的优化料理的话,比如在上海这个城市,当环球齐去出行的时候,我为了保证不拥挤可能需要把车说念修到8车说念、10车说念,这是通过硬件来缓助。然则通过这种软件优化之后,然后我通过合理的妥洽,通过不同的政策包括像绿波等等,环球可以并行的来出行。这么咱们可能不再需要8个车说念、10个车说念,可能只需要2个车说念、4个车说念,通过这种细致化的放弃就可以使着力得到提高,使出行不会产生拥挤,其实优化部分中枢处治的即是这么一个使命。然后本质效果来讲,环球可以看到在覆按方面,关于一个70B的模子,这亦然咫尺主流的一个覆按模子的限度。然后1.4T的语料在传统的,即是在莫得优化前通过A800的这么一个卡大略需要21天的覆按时长,然后通过这个优化之后。21天覆按时长在传统的莫得优化之前大略需要2000卡的A800,然后通过优化之后大略可以简易23%的算力。
然后在推理这个应用内部,这是一个真实的案例,也即是日活500万的AI应用,在传统莫得优化之前大略需要178张的A800的卡,通过优化之后大略可以简易55%的算力,这个简易的算力即是真金白银的降本增效。
第三部分处治的是闲隙性的问题,闲隙性的问题中枢来讲,咱们其实看到底下有个公式,在通盘万卡集群这么算下来它总归有些故障点,有一些硬件它失效,失效之后表面上就会变成任务的无效覆按时刻。这部分算了一半之后卡坏了,那我就要回到上一个保存的点从头再来算,这个即是从上一个咱们作念的阿谁保存点到失效的这个部分,其实即是个无效的覆按时刻。咱们若何压缩无效覆按时刻即是中枢问题,压缩无效覆按时刻阐述这个公式的话主如果3个方面。
一个是缩小故障的中断次数,天然硬件的故障咱们是没目标缩小的,但咱们可以通过平台、多维的故障感知之后,通过平台级的容错来使得在平台覆按的任务层面让这个任务不中断。第二个,即是中断之后它有两个时刻,即是是一个故障的收复时长加上故障的重算时长,这部分也就相识为就荒谬于这个硬件坏了之后我这个还没算完的这些任务就白算了,我若何减少白算的这些任务,这一部分即是通过多维的容错处理、包括这个节点的维修、秒级的冷迁徙收复、自动故障遏制、自动任务调遣等等来减少这个时长。
第三部分是常态写Ckpt,因为有故障是以每隔一段时刻咱们就要把使命保存一下,就像一个快照相同,咱们把现存的覆按保存一个快照,这个叫Ckpt。但这个写Ckpt是一个相当长的时刻。在这一部分咱们就用了一些时间包括秒级的Ckpt写入,异步的加速、包括差别式加速等等来缩小Ckpt的总时长。
终末可以使咱们万卡集群的灵验覆按时长达到98.8%,带宽的灵验性达到95%。这是一个相当了不得的树立,这亦然环球知说念背后除了时间自己的卓著除外,中枢的如故要降本,尤其是在这种大模子鸿沟。
终末一部分咱们要说的是这么一个车路云的协同。咱们看到左侧有各式千般的Corner Case,其实有些Corner Case即是从地说念的这种单车智能的话,不论你有何等卓著的激光雷达等传感器,它有些遮拦或者有些天气情况即是失效,表面上它即是在ODD可启动除外的。也即是说,关于这一些部分的话其实单车智能并不是独一的一个路子,而关于这一部分Corner Case的话,其实关于说念路的钞票料理部门来讲他们有相当精确的数据、相当及时的数据,这些数据百度就一直在,和监管部门妥洽,但愿这些数据能够来和车端的数据才智来和会,从而形成一个天主视角的路面情况。这种情况下就可以极地面提高车辆的安全性,因为有些Corner Case,说真话靠单车智能是无法去处治的,也即是说处治的一个旅途可能即是车路协同。其实中国在车路协同方面是有一定上风的,包括咱们的这种5G的这些汇集基础范例蛊惑,包括有一个强力的大政府,即是咱们可以建立这种定约、这种尺度。在这一方面咱们在客岁也和广错乱团作念了相当多的一些探索,赢得了一些相比好的效果,包括这两天环球看了上海汽车城在这方面亦然走在前线。
咱们深信,车路协同在L4自动驾驶场景内部会越来越珍重。这么咱们也相当但愿和诸君行业同仁一块尽力,共同打造这么一个有中国特色的、基于车路云一体的,全国卓著的自动驾驶处治决策。
我的分享就到这里,谢谢环球!
(注:本文阐述现场速记整理,未经演讲嘉宾审阅)
海量资讯、精确解读,尽在新浪财经APP牵累剪辑:梁斌 SF055