[汽車之家 行業(yè)] 5月16日,2023中國(亦莊)智能網(wǎng)聯(lián)汽車科技周暨第十屆國際智能網(wǎng)聯(lián)汽車技術年會在京舉行,大會主題涵蓋了智能網(wǎng)聯(lián)汽車戰(zhàn)略引領、技術創(chuàng)新、生態(tài)賦能、商業(yè)化推進、跨界融合等多個版塊,同時聚集了全球頂級專家、政策制定者、產(chǎn)業(yè)領袖、投資機構等多方人員的參與,旨在進一步促進智能網(wǎng)聯(lián)汽車技術進步與商業(yè)化應用。
在“CICV2023運載裝備智能感知技術與應用研討會議”現(xiàn)場,地平線智能駕駛算法研發(fā)負責人蘇治中圍繞“軟件2.0時代的自動駕駛感知技術”發(fā)表了演講。
以下內(nèi)容為現(xiàn)場演講實錄:
我今天匯報的主題叫軟件2.0時代的自動駕駛感知技術。我今天分享的內(nèi)容主要有三部分,第一是軟件2.0與智能汽車的行業(yè)趨勢,第二部分是端云協(xié)同的自動駕駛感知技術,第三部分是自動駕駛端到端算法趨勢。
首先是軟件2.0與智能汽車的行業(yè)趨勢。 在2012年AlexNet出現(xiàn)之后,深度學習已經(jīng)統(tǒng)治了計算視覺這個領域十多年,深度學習的出現(xiàn)使得過去由問題拆分的傳統(tǒng)CV算法逐步過渡到了端到端由深度學習驅(qū)動的算法,深度學習驅(qū)動的算法最大的好處就是它能夠通過計算和數(shù)據(jù)帶來性能持續(xù)的提升,不像傳統(tǒng)的CV算法可能需要很多專家手動設計一些特征去解決問題,存在低效的情況。
實際上現(xiàn)在軟件2.0已經(jīng)是一個大家非常熟知的概念,它主要的idea,不通過問題拆分,也不通過專家經(jīng)驗、人工邏輯設計,而是完全通過數(shù)據(jù)和計算驅(qū)動的模式,來去解決問題。在過去一段時間,可能從2012年到2019、2020年之前,大家關注到更多還是在NLP領域或者計算機視覺領域,深度學習所扮演的重要角色,近來隨著GPT等模型的出現(xiàn),我們關注到深度學習能夠更加以端到端形式,去實現(xiàn)通用的人工智能。正是這幾年算法的發(fā)展,推動了汽車的智能化。過去的汽車,大家更多理解為是一個車輪子上的沙發(fā),帶著大家安全舒適從另一個地方到達另一個地方,F(xiàn)在大家對智能汽車的認識發(fā)生了非常大的變化,我們更多地把它看作是一個智能出行的助理,它是一個車輪子上的智能器人,因此我們認為智能汽車是一個堪比計算機誕生顛覆性的創(chuàng)新,是因為我們認為智能汽車會是自主機器人的第一個形態(tài)。隨著它不斷的進化,智能汽車能夠在大街上實現(xiàn)高級別自動駕駛,其實背后所驅(qū)動的技術和基礎設施的發(fā)展會帶來自主機器人快速的發(fā)展和落地。有非常多的專家和行業(yè)伙伴有這樣的認識,包括前一段時間,陸奇博士也提到過智能汽車正在成為人類科技發(fā)展史最大的母生態(tài)。
在自動駕駛領域,我們觀察到了數(shù)據(jù)驅(qū)動的算法正在逐步替代規(guī)則實現(xiàn)的算法,雖然我們今天講的是感知,但實際上數(shù)據(jù)驅(qū)動的算法,也就是深度學習正在替代包括融合、規(guī)劃和控制所有自動駕駛的模塊。自動駕駛對于深度學習性能的要求和大模型的發(fā)展,其實驅(qū)動了算力持續(xù)的提升,通常在端上使用的模型容量可能并不會特別大,現(xiàn)在的自動駕駛系統(tǒng)更多是端云協(xié)同的系統(tǒng),其實在云端它往往會需求更大的計算量。
算力的需求也驅(qū)動了我們需要有新的計算架構,在過去大家更加會聚焦于CPU或者GPU,但其實智能駕駛需要更專用的、并且更高效的計算架構,不管是在功耗上還是性能上,這是地平線成立的初衷,也是我們始終不斷堅持探索的方向。前不久在上海國際車展,地平線剛剛發(fā)布了最新一代智能駕駛加速引擎,我們稱之為納什架構。納什架構將會在地平線下一代芯片上率先應用,會在很快的未來達到落地量產(chǎn),它不僅提供了更大的算力,也提供了更高的靈活性,同時也能夠更好地支持像Transformer這樣更先進、更具備趨勢性的模型,這里也列出了納什架構的8個很重要的核心技術突破點,在這里就不為大家做詳細的介紹。
接下來我來為大家分享我們的一些實踐,首先現(xiàn)在大家也普遍認識到,自動駕駛不僅僅是一個端上的系統(tǒng),它更多是一個端云協(xié)同的系統(tǒng),我們要在端上去執(zhí)行我們的模型,執(zhí)行我們的系統(tǒng),去做實時的感知、建模、定位、規(guī)控等等,但同樣在云端我們也需要一套完整的系統(tǒng)去獲取數(shù)據(jù),去生成真值,去做仿真,為端上的系統(tǒng)提供訓練和仿真評測的環(huán)境。
第一部分為大家分享端上的部分,首先這里是我們在征程5上BEV時空融合的架構,當前在自動駕駛感知領域,BEV是一個大家非常熟知也非常流行,每個團隊都在大力去做的非常有優(yōu)勢的架構。地平線也研發(fā)了自己的BEV時空融合架構,它也會在今年在國內(nèi)一個非常主要車企的主要車型上完成量產(chǎn)。這是我們完整的架構,我們針對不同的合作伙伴、車型或客戶也會有一定的定制化或者是裁減,并不是每個車型都是11個攝像頭和Lidar,可能會有7個攝像頭、Lidar等等不同的配置.這套架構能夠?qū)崿F(xiàn)神經(jīng)網(wǎng)絡源生的輸出,360感知的全要素,并且能夠去通過模型完成感知融合、建模和軌跡預測,也正是通過這樣的端上實時的感知和建圖,我們能夠不依賴高精地圖,或者降低對于地圖的依賴,而達成城區(qū)自動駕駛功能,同時在復雜路況下也有很好的處理能力。
下面的框圖展示了我們的一個模型結構的框圖,在camera或者Lidar信號進來之后我們會先做特征提取,之后經(jīng)過視角變換和空間融合,再結合多幀的時序融合,再經(jīng)過第二階段的特征結合refinement,最后是到達這個模型Head輸出的部分,大家可以看到這套框架同時能夠完成空間、時間以及多個模態(tài),就是Lidar和camera的融合。在這樣一個框架里,BEV特征融合的算法至關重要,因此我們也自研了GKT BEV感知算法(Geometry-guided kernel BEV),是一套基于Transformer的架構,因為我們大概可以認為當前BEV算法有三類,基于特征IPM視角轉換,基于Transformer以及基于LSS三類算法,基于Transformer的方案它會有更好的性能和更強的泛化性,但它的缺點就是全局attention會帶來比較大的算力和帶寬的需求,我們通過Geometry-guided kernel的方式來降低對于全局attention的需要,大幅提升效率,同時Transformer的方法相比LSS對嵌入式平臺是更友好的,這套方法在征程5上能夠達到一個非常高的幀率。
像我剛才講的整套架構是支持多模態(tài)特征融合,多模態(tài)的融合分為前融合、中融合和后融合,后融合就是目標級融合,跟咱們講的軟件2.0范式不符合,因為它涉及到非常多人工邏輯的計算。前融合我們通常認為是信號級的融合,camera跟Lidar點云的直接融合,這個方案由于是Lidar跟camera的幀率不同,掃描方式不同,非常難以做信號級的對齊,因此我們會采取這種中融合,就是特征級的融合,它分別是用camera提取BEV特征,Lidar提取特征,在特征級別去完成一個融合。
我們這一套BEV架構支持不同的傳感器配置,同時支持在不同傳感器配置下多尺度的輸出和可拓展的應用,右邊展示了我們在BEV大的Feature Map上面可以通過取LI的方式取出不同的范圍達成不同的功能,比如小范圍更多是支持泊車,而最長的大范圍能夠支持高速,因為高速上往往需要更遠距離的感知,中短范圍能夠在城區(qū)更好的處理好路口。在BEV感知框架里面可以看到,感知中兩個非常大的模塊,分別就是靜態(tài)和動態(tài),靜態(tài)就是實時的局部的地圖的構建,我們稱之為地圖感知,地平線也自研了這樣一套矢量化的地圖感知方案,它前面也是基于一個BEV的特征融合的模塊,可以采用GKT,也可以采用其他的,主要的部分是在Head部分,它是通過一個Transformer的結構去實時的輸出instance level的地圖要素,比如說車道線、人行道等等,避免了這些后處理和后處理中所涉及到對于CPU的需求,對于邏輯計算的需求,對于工程師手寫代碼的需要。
動態(tài)感知,我們是采用了一個端到端的范式,就是從檢測到跟蹤,再到預測,如果我們想要做預測的話是需要有靜態(tài)的要素,因為車輛周圍行駛軌跡其實跟車道線是密切相關的,因此這張圖上展現(xiàn)了我們會通過一個多任務的模型,同時去輸出Map靜態(tài)感知,也會輸出3D的動態(tài)目標檢測,結合這兩個Head我們會再去做動態(tài)目標的軌跡預測,也是通過這樣一個端到端的范式,進一步的去增強了跟蹤和預測的性能,同時也減少了我們對于后處理的依賴。
現(xiàn)在隨著自動駕駛技術的發(fā)展,隨著它落地的增加,我們逐步的發(fā)現(xiàn)僅僅達成靜態(tài)和動態(tài)感知其實并不足以完成自動駕駛,很重要的原因就是場景中有很多一般障礙物,一般障礙物我們是很難用語義去窮盡的,比如說馬路上有一個紙箱子,要定義紙箱的類別,這個是難以覆蓋的, 因此我們也需要通過一些幾何的方式去理解這個場景的幾何構造,同時覆蓋一般障礙物的感知,因此3D Occupancy是一個非常好的解決范式,在之前的Tesla AI Day上大家也看到過Tesla 3D Occupancy算法方案,它是輸出一個3D的占有,就是XYZ跟一個feature vector,它對于帶寬和計算量的要求都是非常高的,因此我們在征程5上也是采用了BEV2D的Freespace+BEV elevation里完成3D Occupancy感知任務,因此在這個圖中,我們也看到在BEV之后只有兩個Head,一個是用來估計每一個BEV上面的高度,另外一個Head是用來估計每個BEV格子是否被占用。這一頁展示了3D Occupancy當前的一個demo視頻,可以看到它針對這些突出的路沿、花壇以及道路中間的隔離帶都能有非常好的響應,而像這個花壇、隔離帶如果我們用語義分割的手段解決的話,可能是很難窮盡這些場景的。
盡管說BEV是當下最為主流的一個感知的范式,但我們同時也在不斷的探索稀疏實例目標檢測的技術,原因也是BEV也存在一定的局限性,主要有幾個方面,一個我們在做BEV的過程中需要對特征做一些壓縮,再做稠密的視角轉換,這個過程往往會帶來分辨率的損失,而且稠密的視角轉換其實會帶來很大的帶寬的損耗、帶寬的占用。另外BEV它的感知范圍是局限于BEV的Greatmap的,如果說我們構建一個非常大的Greatmap,它可能會占據(jù)很大的算力和帶寬,而構建較小的Greatmap,又影響遠距離感知,因此我們基于DETR的Transformer的范式去研發(fā)了稀疏實例動態(tài)目標,它不需要做dense view transformer,也不需要向傳統(tǒng)的基于Transformer的BEV做很多全局的attention,同時它通過稀疏的范式,當前性能已經(jīng)超過了所有Sparse目標檢測方法和絕大部分BEV的方法,此外Sparse的范式也很容易可以應用到地圖感知和靜態(tài)和一般障礙物。
接下來是端云協(xié)同系統(tǒng)中云端的部分,我重點會講跟感知相關的,尤其是4D標注的部分, 我們在云端構建最重要的系統(tǒng)就是4D智能化的標注,它主要由四個大的模塊和流程組成,分別是數(shù)據(jù)采集、4D的場景重建、大模型的預刷和人工質(zhì)檢和編輯,它能夠把這個感知的輸出空間從2D映射到3D,所以我們所有的標注也都是在3D之下去完成的。所謂4D就是結合了時序,4D標注第一步就是完成4D的重建,4D重建有兩個大的環(huán)節(jié),第一個部分是單幀的重建,這是基于比較經(jīng)典的SLAM技術,基于camera和lidar多模態(tài)的重建。第二個部分是多趟的聚合,單趟很難掃描完整個場景,因此通過多趟的聚合,能夠把這個場景達成一個更好的完整的感知,這是上面的通路,就是針對靜態(tài)和靜態(tài)環(huán)境。不需要關注動態(tài)目標,底下主要是基于Lidar跟camera同時去檢測和感知場景中的動態(tài)目標,通過云端大模型得到高精度感知的結果,這兩個融合之后就得到了4D場景中的完整信息,這動態(tài)和靜態(tài)所具有的完整信息在經(jīng)過模型預刷和標注之后,就能夠給所有的BEV的任務提供一個監(jiān)督信息。
除了動態(tài)和靜態(tài),就像我們剛剛講到非常重要的就是Occupancy占用柵格,主要是為了解決場景中一般的障礙物,因此我們構建了多模態(tài)的一般障礙物的幀值生成的方案,它能夠把路面非常小的凸起形成一個很好的建模,去供3D Occupancy模型做一個學習,之后再供給自動駕駛系統(tǒng)去應用。當然多模態(tài)的技術盡管能夠達到很高的精度,但它的局限性是需要車上有雷達,但我們大部分的量產(chǎn)車上是不會安裝雷達的,因此純視覺的點云重建,純視覺的4D場景重建對我們來說都是非常重要的,這個決定了未來數(shù)據(jù)能不能更大規(guī)模的上量,更大規(guī)模的去完成一個標注和對模型的監(jiān)督,當前我們已經(jīng)是能夠通過純視覺的重建達到接近多模態(tài)視覺得效果,暫時還沒有在量產(chǎn)中去應用.除了純視覺點云,現(xiàn)在NeRF也是大家廣為關注的算法,相比點云它能夠給場景提供更稠密的重建,并且可以去實時的恢復這些所有的視角,并且做視角的轉換,同樣是我們當前仍然在研發(fā)還沒有在量產(chǎn)中使用的算法。當前4D智能標注已經(jīng)支持了非常豐富的任務,像這里列出BEV的分割、3D的車位、靜態(tài)全要素、3D目標檢測等等。
下面我跟大家講講我們對于自動駕駛端到端算法趨勢的看法,前面一直在講軟件2.0,實際上軟件2.0驅(qū)動自動駕駛端到端已經(jīng)是一個行業(yè)的共識,前面我給大家展示了我們在動態(tài)目標這一部分已經(jīng)使用了檢測跟蹤到預測的端到端,但實際上這個還可以進一步往后去發(fā)展,去結合包括我們環(huán)境的認知,比如道路的拓撲邏輯關系的感知,以及到基于深度學習的Planner到Control,其實都是可以被端到端的訓練去落地的。在去年已經(jīng)誕生了非常多特別優(yōu)秀的一些端到端的算法工作,可以看出大家對這個方面都在做很多的工作,并且去努力朝這個方向發(fā)展,之前我們看到特斯拉的FSD會在V12版本發(fā)布一個端到端的方案,地平線研發(fā)了基于Vector表達的一套端到端的自動駕駛算法,我們稱作VAD,跟大部分的普通端到端算法不同,VAD是將場景表達為向量,而不是柵格,這種方式能夠顯著的提升inference的速度,并且在訓練的階段通過向量的方式來施加顯示的監(jiān)督約束,當前這套方法已經(jīng)在nuScenes dataset 上取得了端到端到planning的指標。
現(xiàn)在ChatGPT、GPT4都非;,我們認為GPT4對于自動駕駛端到端也有非常大的啟示,這里展示了inference GPT講的三步instruction GPT訓練范式,第一步是文本的自監(jiān)督預訓練,第二步是通過人工智能撰寫的問答對去做監(jiān)督學習,最后一部分是human feedback的強化學習,基于這樣一個啟示,我們也認為端到端自動駕駛的訓練范式會非常類似于GPT的訓練范式,首先也需要多模態(tài)自監(jiān)督的預訓練,這個跟文本不一樣,它需要Lidar、camera、包括自監(jiān)督在內(nèi)的文本訓練。之后我們需要這些子模塊的監(jiān)督訓練,還是需要一部分數(shù)據(jù),有標注做一些監(jiān)督。第三個imitation learning它是學人怎么做,最后一部分我們也是通過RL來對齊它跟人的價值觀,并且去做好一些兜底。
以上是我們對于端到端的一些思考,最后是我們簡要一些成果的展示,首先是我們城區(qū)的復雜場景自動駕駛展示,總的來講基于征程5 城區(qū)NOA的方案,能夠在這些復雜拓撲無保護左轉、無保護右轉、擁堵的博弈匯出等等復雜場景上達到一個純視覺城區(qū)非常好的性能,同時我們也在多次自動駕駛學術競賽中取得優(yōu)異的成績,當前地平線的征程系列芯片已經(jīng)在50款車型上量產(chǎn)上市達到300萬片芯片的出貨,已經(jīng)定點車型是超過120款,去年我們在L2+標配市場達到了市場份額的第一。
好評理由:
差評理由: