蘇治中：靜動態(tài)感知不足以完成自動駕駛

楊益春

2023年05月19日 16:17 編譯來源：汽車之家發(fā)布于:北京

收藏 (0條) 舉報/糾錯

　　[汽車之家行業(yè)] 5月16日，2023中國（亦莊）智能網(wǎng)聯(lián)汽車科技周暨第十屆國際智能網(wǎng)聯(lián)汽車技術年會在京舉行，大會主題涵蓋了智能網(wǎng)聯(lián)汽車戰(zhàn)略引領、技術創(chuàng)新、生態(tài)賦能、商業(yè)化推進、跨界融合等多個版塊，同時聚集了全球頂級專家、政策制定者、產(chǎn)業(yè)領袖、投資機構等多方人員的參與，旨在進一步促進智能網(wǎng)聯(lián)汽車技術進步與商業(yè)化應用。

　　在“CICV2023運載裝備智能感知技術與應用研討會議”現(xiàn)場，地平線智能駕駛算法研發(fā)負責人蘇治中圍繞“軟件2.0時代的自動駕駛感知技術”發(fā)表了演講。

以下內(nèi)容為現(xiàn)場演講實錄：

　　我今天匯報的主題叫軟件2.0時代的自動駕駛感知技術。我今天分享的內(nèi)容主要有三部分，第一是軟件2.0與智能汽車的行業(yè)趨勢，第二部分是端云協(xié)同的自動駕駛感知技術，第三部分是自動駕駛端到端算法趨勢。

　　首先是軟件2.0與智能汽車的行業(yè)趨勢。在2012年AlexNet出現(xiàn)之后，深度學習已經(jīng)統(tǒng)治了計算視覺這個領域十多年，深度學習的出現(xiàn)使得過去由問題拆分的傳統(tǒng)CV算法逐步過渡到了端到端由深度學習驅(qū)動的算法，深度學習驅(qū)動的算法最大的好處就是它能夠通過計算和數(shù)據(jù)帶來性能持續(xù)的提升，不像傳統(tǒng)的CV算法可能需要很多專家手動設計一些特征去解決問題，存在低效的情況。

　　實際上現(xiàn)在軟件2.0已經(jīng)是一個大家非常熟知的概念，它主要的idea，不通過問題拆分，也不通過專家經(jīng)驗、人工邏輯設計，而是完全通過數(shù)據(jù)和計算驅(qū)動的模式，來去解決問題。在過去一段時間，可能從2012年到2019、2020年之前，大家關注到更多還是在NLP領域或者計算機視覺領域，深度學習所扮演的重要角色，近來隨著GPT等模型的出現(xiàn)，我們關注到深度學習能夠更加以端到端形式，去實現(xiàn)通用的人工智能。正是這幾年算法的發(fā)展，推動了汽車的智能化。過去的汽車，大家更多理解為是一個車輪子上的沙發(fā)，帶著大家安全舒適從另一個地方到達另一個地方�，F(xiàn)在大家對智能汽車的認識發(fā)生了非常大的變化，我們更多地把它看作是一個智能出行的助理，它是一個車輪子上的智能器人，因此我們認為智能汽車是一個堪比計算機誕生顛覆性的創(chuàng)新，是因為我們認為智能汽車會是自主機器人的第一個形態(tài)。隨著它不斷的進化，智能汽車能夠在大街上實現(xiàn)高級別自動駕駛，其實背后所驅(qū)動的技術和基礎設施的發(fā)展會帶來自主機器人快速的發(fā)展和落地。有非常多的專家和行業(yè)伙伴有這樣的認識，包括前一段時間，陸奇博士也提到過智能汽車正在成為人類科技發(fā)展史最大的母生態(tài)。

　　在自動駕駛領域，我們觀察到了數(shù)據(jù)驅(qū)動的算法正在逐步替代規(guī)則實現(xiàn)的算法，雖然我們今天講的是感知，但實際上數(shù)據(jù)驅(qū)動的算法，也就是深度學習正在替代包括融合、規(guī)劃和控制所有自動駕駛的模塊。自動駕駛對于深度學習性能的要求和大模型的發(fā)展，其實驅(qū)動了算力持續(xù)的提升，通常在端上使用的模型容量可能并不會特別大，現(xiàn)在的自動駕駛系統(tǒng)更多是端云協(xié)同的系統(tǒng)，其實在云端它往往會需求更大的計算量。

　　算力的需求也驅(qū)動了我們需要有新的計算架構，在過去大家更加會聚焦于CPU或者GPU，但其實智能駕駛需要更專用的、并且更高效的計算架構，不管是在功耗上還是性能上，這是地平線成立的初衷，也是我們始終不斷堅持探索的方向。前不久在上海國際車展，地平線剛剛發(fā)布了最新一代智能駕駛加速引擎，我們稱之為納什架構。納什架構將會在地平線下一代芯片上率先應用，會在很快的未來達到落地量產(chǎn)，它不僅提供了更大的算力，也提供了更高的靈活性，同時也能夠更好地支持像Transformer這樣更先進、更具備趨勢性的模型，這里也列出了納什架構的8個很重要的核心技術突破點，在這里就不為大家做詳細的介紹。

　　接下來我來為大家分享我們的一些實踐，首先現(xiàn)在大家也普遍認識到，自動駕駛不僅僅是一個端上的系統(tǒng)，它更多是一個端云協(xié)同的系統(tǒng)，我們要在端上去執(zhí)行我們的模型，執(zhí)行我們的系統(tǒng)，去做實時的感知、建模、定位、規(guī)控等等，但同樣在云端我們也需要一套完整的系統(tǒng)去獲取數(shù)據(jù)，去生成真值，去做仿真，為端上的系統(tǒng)提供訓練和仿真評測的環(huán)境。

　　第一部分為大家分享端上的部分，首先這里是我們在征程5上BEV時空融合的架構，當前在自動駕駛感知領域，BEV是一個大家非常熟知也非常流行，每個團隊都在大力去做的非常有優(yōu)勢的架構。地平線也研發(fā)了自己的BEV時空融合架構，它也會在今年在國內(nèi)一個非常主要車企的主要車型上完成量產(chǎn)。這是我們完整的架構，我們針對不同的合作伙伴、車型或客戶也會有一定的定制化或者是裁減，并不是每個車型都是11個攝像頭和Lidar，可能會有7個攝像頭、Lidar等等不同的配置.這套架構能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡源生的輸出，360感知的全要素，并且能夠去通過模型完成感知融合、建模和軌跡預測，也正是通過這樣的端上實時的感知和建圖，我們能夠不依賴高精地圖，或者降低對于地圖的依賴，而達成城區(qū)自動駕駛功能，同時在復雜路況下也有很好的處理能力。

　　下面的框圖展示了我們的一個模型結構的框圖，在camera或者Lidar信號進來之后我們會先做特征提取，之后經(jīng)過視角變換和空間融合，再結合多幀的時序融合，再經(jīng)過第二階段的特征結合refinement，最后是到達這個模型Head輸出的部分，大家可以看到這套框架同時能夠完成空間、時間以及多個模態(tài)，就是Lidar和camera的融合。在這樣一個框架里，BEV特征融合的算法至關重要，因此我們也自研了GKT BEV感知算法(Geometry-guided kernel BEV)，是一套基于Transformer的架構，因為我們大概可以認為當前BEV算法有三類，基于特征IPM視角轉換，基于Transformer以及基于LSS三類算法，基于Transformer的方案它會有更好的性能和更強的泛化性，但它的缺點就是全局attention會帶來比較大的算力和帶寬的需求，我們通過Geometry-guided kernel的方式來降低對于全局attention的需要，大幅提升效率，同時Transformer的方法相比LSS對嵌入式平臺是更友好的，這套方法在征程5上能夠達到一個非常高的幀率。

　　像我剛才講的整套架構是支持多模態(tài)特征融合，多模態(tài)的融合分為前融合、中融合和后融合，后融合就是目標級融合，跟咱們講的軟件2.0范式不符合，因為它涉及到非常多人工邏輯的計算。前融合我們通常認為是信號級的融合，camera跟Lidar點云的直接融合，這個方案由于是Lidar跟camera的幀率不同，掃描方式不同，非常難以做信號級的對齊，因此我們會采取這種中融合，就是特征級的融合，它分別是用camera提取BEV特征，Lidar提取特征，在特征級別去完成一個融合。

　　我們這一套BEV架構支持不同的傳感器配置，同時支持在不同傳感器配置下多尺度的輸出和可拓展的應用，右邊展示了我們在BEV大的Feature Map上面可以通過取LI的方式取出不同的范圍達成不同的功能，比如小范圍更多是支持泊車，而最長的大范圍能夠支持高速，因為高速上往往需要更遠距離的感知，中短范圍能夠在城區(qū)更好的處理好路口。在BEV感知框架里面可以看到，感知中兩個非常大的模塊，分別就是靜態(tài)和動態(tài)，靜態(tài)就是實時的局部的地圖的構建，我們稱之為地圖感知，地平線也自研了這樣一套矢量化的地圖感知方案，它前面也是基于一個BEV的特征融合的模塊，可以采用GKT，也可以采用其他的，主要的部分是在Head部分，它是通過一個Transformer的結構去實時的輸出instance level的地圖要素，比如說車道線、人行道等等，避免了這些后處理和后處理中所涉及到對于CPU的需求，對于邏輯計算的需求，對于工程師手寫代碼的需要。

　　動態(tài)感知，我們是采用了一個端到端的范式，就是從檢測到跟蹤，再到預測，如果我們想要做預測的話是需要有靜態(tài)的要素，因為車輛周圍行駛軌跡其實跟車道線是密切相關的，因此這張圖上展現(xiàn)了我們會通過一個多任務的模型，同時去輸出Map靜態(tài)感知，也會輸出3D的動態(tài)目標檢測，結合這兩個Head我們會再去做動態(tài)目標的軌跡預測，也是通過這樣一個端到端的范式，進一步的去增強了跟蹤和預測的性能，同時也減少了我們對于后處理的依賴。

　　現(xiàn)在隨著自動駕駛技術的發(fā)展，隨著它落地的增加，我們逐步的發(fā)現(xiàn)僅僅達成靜態(tài)和動態(tài)感知其實并不足以完成自動駕駛，很重要的原因就是場景中有很多一般障礙物，一般障礙物我們是很難用語義去窮盡的，比如說馬路上有一個紙箱子，要定義紙箱的類別，這個是難以覆蓋的，因此我們也需要通過一些幾何的方式去理解這個場景的幾何構造，同時覆蓋一般障礙物的感知，因此3D Occupancy是一個非常好的解決范式，在之前的Tesla AI Day上大家也看到過Tesla 3D Occupancy算法方案，它是輸出一個3D的占有，就是XYZ跟一個feature vector，它對于帶寬和計算量的要求都是非常高的，因此我們在征程5上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任務，因此在這個圖中，我們也看到在BEV之后只有兩個Head，一個是用來估計每一個BEV上面的高度，另外一個Head是用來估計每個BEV格子是否被占用。這一頁展示了3D Occupancy當前的一個demo視頻，可以看到它針對這些突出的路沿、花壇以及道路中間的隔離帶都能有非常好的響應，而像這個花壇、隔離帶如果我們用語義分割的手段解決的話，可能是很難窮盡這些場景的。

　　盡管說BEV是當下最為主流的一個感知的范式，但我們同時也在不斷的探索稀疏實例目標檢測的技術，原因也是BEV也存在一定的局限性，主要有幾個方面，一個我們在做BEV的過程中需要對特征做一些壓縮，再做稠密的視角轉換，這個過程往往會帶來分辨率的損失，而且稠密的視角轉換其實會帶來很大的帶寬的損耗、帶寬的占用。另外BEV它的感知范圍是局限于BEV的Greatmap的，如果說我們構建一個非常大的Greatmap，它可能會占據(jù)很大的算力和帶寬，而構建較小的Greatmap，又影響遠距離感知，因此我們基于DETR的Transformer的范式去研發(fā)了稀疏實例動態(tài)目標，它不需要做dense view transformer，也不需要向傳統(tǒng)的基于Transformer的BEV做很多全局的attention，同時它通過稀疏的范式,當前性能已經(jīng)超過了所有Sparse目標檢測方法和絕大部分BEV的方法，此外Sparse的范式也很容易可以應用到地圖感知和靜態(tài)和一般障礙物。

　　接下來是端云協(xié)同系統(tǒng)中云端的部分，我重點會講跟感知相關的，尤其是4D標注的部分，我們在云端構建最重要的系統(tǒng)就是4D智能化的標注，它主要由四個大的模塊和流程組成，分別是數(shù)據(jù)采集、4D的場景重建、大模型的預刷和人工質(zhì)檢和編輯，它能夠把這個感知的輸出空間從2D映射到3D，所以我們所有的標注也都是在3D之下去完成的。所謂4D就是結合了時序，4D標注第一步就是完成4D的重建，4D重建有兩個大的環(huán)節(jié)，第一個部分是單幀的重建，這是基于比較經(jīng)典的SLAM技術，基于camera和lidar多模態(tài)的重建。第二個部分是多趟的聚合，單趟很難掃描完整個場景，因此通過多趟的聚合，能夠把這個場景達成一個更好的完整的感知，這是上面的通路，就是針對靜態(tài)和靜態(tài)環(huán)境。不需要關注動態(tài)目標，底下主要是基于Lidar跟camera同時去檢測和感知場景中的動態(tài)目標，通過云端大模型得到高精度感知的結果，這兩個融合之后就得到了4D場景中的完整信息，這動態(tài)和靜態(tài)所具有的完整信息在經(jīng)過模型預刷和標注之后，就能夠給所有的BEV的任務提供一個監(jiān)督信息。

　　除了動態(tài)和靜態(tài)，就像我們剛剛講到非常重要的就是Occupancy占用柵格，主要是為了解決場景中一般的障礙物，因此我們構建了多模態(tài)的一般障礙物的幀值生成的方案，它能夠把路面非常小的凸起形成一個很好的建模，去供3D Occupancy模型做一個學習，之后再供給自動駕駛系統(tǒng)去應用。當然多模態(tài)的技術盡管能夠達到很高的精度，但它的局限性是需要車上有雷達，但我們大部分的量產(chǎn)車上是不會安裝雷達的，因此純視覺的點云重建，純視覺的4D場景重建對我們來說都是非常重要的，這個決定了未來數(shù)據(jù)能不能更大規(guī)模的上量，更大規(guī)模的去完成一個標注和對模型的監(jiān)督，當前我們已經(jīng)是能夠通過純視覺的重建達到接近多模態(tài)視覺得效果，暫時還沒有在量產(chǎn)中去應用.除了純視覺點云，現(xiàn)在NeRF也是大家廣為關注的算法，相比點云它能夠給場景提供更稠密的重建，并且可以去實時的恢復這些所有的視角，并且做視角的轉換，同樣是我們當前仍然在研發(fā)還沒有在量產(chǎn)中使用的算法。當前4D智能標注已經(jīng)支持了非常豐富的任務，像這里列出BEV的分割、3D的車位、靜態(tài)全要素、3D目標檢測等等。

　　下面我跟大家講講我們對于自動駕駛端到端算法趨勢的看法，前面一直在講軟件2.0，實際上軟件2.0驅(qū)動自動駕駛端到端已經(jīng)是一個行業(yè)的共識，前面我給大家展示了我們在動態(tài)目標這一部分已經(jīng)使用了檢測跟蹤到預測的端到端，但實際上這個還可以進一步往后去發(fā)展，去結合包括我們環(huán)境的認知，比如道路的拓撲邏輯關系的感知，以及到基于深度學習的Planner到Control，其實都是可以被端到端的訓練去落地的。在去年已經(jīng)誕生了非常多特別優(yōu)秀的一些端到端的算法工作，可以看出大家對這個方面都在做很多的工作，并且去努力朝這個方向發(fā)展，之前我們看到特斯拉的FSD會在V12版本發(fā)布一個端到端的方案，地平線研發(fā)了基于Vector表達的一套端到端的自動駕駛算法，我們稱作VAD，跟大部分的普通端到端算法不同，VAD是將場景表達為向量，而不是柵格，這種方式能夠顯著的提升inference的速度，并且在訓練的階段通過向量的方式來施加顯示的監(jiān)督約束，當前這套方法已經(jīng)在nuScenes dataset 上取得了端到端到planning的指標。

　　現(xiàn)在ChatGPT、GPT4都非�；�，我們認為GPT4對于自動駕駛端到端也有非常大的啟示，這里展示了inference GPT講的三步instruction GPT訓練范式，第一步是文本的自監(jiān)督預訓練，第二步是通過人工智能撰寫的問答對去做監(jiān)督學習，最后一部分是human feedback的強化學習，基于這樣一個啟示，我們也認為端到端自動駕駛的訓練范式會非常類似于GPT的訓練范式，首先也需要多模態(tài)自監(jiān)督的預訓練，這個跟文本不一樣，它需要Lidar、camera、包括自監(jiān)督在內(nèi)的文本訓練。之后我們需要這些子模塊的監(jiān)督訓練，還是需要一部分數(shù)據(jù)，有標注做一些監(jiān)督。第三個imitation learning它是學人怎么做，最后一部分我們也是通過RL來對齊它跟人的價值觀，并且去做好一些兜底。

　　以上是我們對于端到端的一些思考，最后是我們簡要一些成果的展示，首先是我們城區(qū)的復雜場景自動駕駛展示，總的來講基于征程5 城區(qū)NOA的方案，能夠在這些復雜拓撲無保護左轉、無保護右轉、擁堵的博弈匯出等等復雜場景上達到一個純視覺城區(qū)非常好的性能，同時我們也在多次自動駕駛學術競賽中取得優(yōu)異的成績，當前地平線的征程系列芯片已經(jīng)在50款車型上量產(chǎn)上市達到300萬片芯片的出貨，已經(jīng)定點車型是超過120款，去年我們在L2+標配市場達到了市場份額的第一。