全职猎人1999_日韩综合社区_久草播放_黄色a一级一级一级免费看_午夜在线视频一区二区三区_国产日韩精品SUV

400-821-6015
行業(yè)資訊
您當(dāng)前的位置:首頁(yè) ? 行業(yè)資訊 ? 行業(yè)資訊
內(nèi)部資訊行業(yè)資訊

全面帶你了解端到端大模型的底層邏輯(一)

發(fā)布日期:2024-10-29

作者 | Jessie

出品 | 焉知


      自動(dòng)駕駛領(lǐng)域的發(fā)展見(jiàn)證了采用端到端算法框架的方法的快速增長(zhǎng),這些方法利用原始傳感器輸入來(lái)生成車輛運(yùn)動(dòng)計(jì)劃,而不是專注于檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)等單個(gè)任務(wù)。與模塊化管道相比,端到端系統(tǒng)受益于感知和規(guī)劃的聯(lián)合特征優(yōu)化。由于大規(guī)模數(shù)據(jù)集的可用性、閉環(huán)評(píng)估以及對(duì)自動(dòng)駕駛算法在具有挑戰(zhàn)性的場(chǎng)景中有效執(zhí)行的需求不斷增加,該領(lǐng)域蓬勃發(fā)展。 

      傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化部署策略,其中感知、預(yù)測(cè)、規(guī)劃等各個(gè)功能都是單獨(dú)開(kāi)發(fā)并集成到車載車輛中。規(guī)劃或控制模塊負(fù)責(zé)生成轉(zhuǎn)向和加速輸出,在確定駕駛體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。模塊化Pipeline中最常見(jiàn)的規(guī)劃方法涉及使用復(fù)雜的基于規(guī)則的設(shè)計(jì),這通常無(wú)法有效解決駕駛時(shí)發(fā)生的大量情況。因此,利用大規(guī)模數(shù)據(jù)并使用基于學(xué)習(xí)的規(guī)劃作為可行的替代方案的趨勢(shì)日益明顯。
      我們將端到端自動(dòng)駕駛系統(tǒng)定義為完全可微分的程序,該程序?qū)⒃紓鞲衅鲾?shù)據(jù)作為輸入并生成計(jì)劃或低級(jí)控制操作作為輸出。圖 1 (a)-(b) 說(shuō)明了經(jīng)典公式和端到端公式之間的差異。傳統(tǒng)方法將每個(gè)組件的輸出(例如邊界框和車輛軌跡)直接輸入后續(xù)單元(虛線箭頭)。相反,端到端范式跨組件傳播特征表示(灰色實(shí)線箭頭)。例如,優(yōu)化函數(shù)設(shè)置為規(guī)劃性能,并通過(guò)反向傳播(紅色箭頭)最小化損失,在此過(guò)程中任務(wù)得到聯(lián)合全局優(yōu)化。

圖片

圖 1:自動(dòng)駕駛端到端整體概覽

      本文首次提供了端到端自動(dòng)駕駛的全面分析,包括高層動(dòng)機(jī)、方法論、基準(zhǔn)等。我們提倡的不是單個(gè)模塊的優(yōu)化,而是整體設(shè)計(jì)算法框架的理念,最終目標(biāo)是實(shí)現(xiàn)安全舒適的駕駛。
      1、端到端系統(tǒng)的動(dòng)機(jī)
      在經(jīng)典Pipeline中,每個(gè)模型都提供獨(dú)立的組件并對(duì)應(yīng)于特定的任務(wù)(例如交通燈檢測(cè))。這樣的設(shè)計(jì)在可解釋性、可驗(yàn)證性和易于調(diào)試方面是有益的。然而,由于各個(gè)模塊的優(yōu)化目標(biāo)不同,感知中的檢測(cè)追求平均精度(mAP),而規(guī)劃則以駕駛安全性和舒適性為目標(biāo),整個(gè)系統(tǒng)可能不會(huì)朝著一個(gè)統(tǒng)一的目標(biāo),即最終的規(guī)劃/控制任務(wù)。隨著順序過(guò)程的進(jìn)行,每個(gè)模塊的錯(cuò)誤可能會(huì)加劇并導(dǎo)致驅(qū)動(dòng)系統(tǒng)的信息丟失。此外,多任務(wù)、多模型部署可能會(huì)增加計(jì)算負(fù)擔(dān),并可能導(dǎo)致計(jì)算使用不佳。
      與傳統(tǒng)的對(duì)應(yīng)系統(tǒng)相比,端到端自治系統(tǒng)具有多種優(yōu)勢(shì)。(a) 最明顯的優(yōu)點(diǎn)是它簡(jiǎn)單地將感知、預(yù)測(cè)和規(guī)劃結(jié)合到一個(gè)可以聯(lián)合訓(xùn)練的模型中。(b) 整個(gè)系統(tǒng),包括其中間表示,針對(duì)最終任務(wù)進(jìn)行了優(yōu)化。(c) 共享主干網(wǎng)提高了計(jì)算效率。(d) 數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化有可能通過(guò)簡(jiǎn)單地?cái)U(kuò)展培訓(xùn)資源來(lái)提供改進(jìn)系統(tǒng)的新興能力。
      請(qǐng)注意,端到端范式不一定表示只有規(guī)劃/控制輸出的黑匣子。它可以像經(jīng)典方法一樣采用中間表示和輸出進(jìn)行模塊化(圖 1 (b))。事實(shí)上,一些最先進(jìn)的系統(tǒng)提出了模塊化設(shè)計(jì),但同時(shí)優(yōu)化所有組件以實(shí)現(xiàn)卓越的性能。
      本文重點(diǎn)說(shuō)明了三種流行的范式,包括兩種模仿學(xué)習(xí)框架(行為克隆和逆最優(yōu)控制)以及在線強(qiáng)化學(xué)習(xí)。
      2、方法
      本文回顧大多數(shù)現(xiàn)有端到端自動(dòng)駕駛方法背后的基本原理。并討論了使用模仿學(xué)習(xí)的方法,并提供了兩個(gè)最流行的子類別的詳細(xì)信息,即行為克隆和逆最優(yōu)控制。最后,總結(jié)了遵循強(qiáng)化學(xué)習(xí)范式的方法。

圖片

圖 2:端到端自動(dòng)駕駛方法概述

      2.1 模仿學(xué)習(xí)
      模仿學(xué)習(xí)(IL),也稱為從演示中學(xué)習(xí),通過(guò)模仿專家的行為來(lái)訓(xùn)練智能體學(xué)習(xí)最優(yōu)策略。IL 需要數(shù)據(jù)集 圖片 包含根據(jù)專家的政策收集的軌跡,其中每個(gè)軌跡都是狀態(tài)-動(dòng)作對(duì)的序列圖片IL 的目標(biāo)是學(xué)習(xí)代理策略圖片匹配圖片IL 的一個(gè)重要且廣泛使用的類別是行為克隆(BC,Behavior Clone),它將問(wèn)題歸結(jié)為監(jiān)督學(xué)習(xí)。逆向最優(yōu)控制(IOC),也稱為逆向強(qiáng)化學(xué)習(xí)(IRL),是另一種 IL 方法,它利用專家演示來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。我們將在以下幾節(jié)中詳細(xì)說(shuō)明這兩個(gè)類別。
      2.2 行為克隆
      行為克隆BC 在駕駛?cè)蝿?wù)中的早期應(yīng)用利用端到端神經(jīng)網(wǎng)絡(luò)從攝像頭輸入生成控制信號(hào)。在行為克隆中,將代理策略與專家策略相匹配的目標(biāo)是通過(guò)最小化計(jì)劃損失來(lái)實(shí)現(xiàn)的,作為收集數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)問(wèn)題:圖片這里,圖片表示一個(gè)損失函數(shù),用于測(cè)量代理動(dòng)作和專家動(dòng)作之間的距離。行為克隆因其簡(jiǎn)單和高效而具有優(yōu)勢(shì),因?yàn)樗恍枰止ぴO(shè)計(jì)的獎(jiǎng)勵(lì)設(shè)計(jì),而這對(duì)于強(qiáng)化學(xué)習(xí)至關(guān)重要。已有學(xué)者提出了進(jìn)一步的增強(qiáng)功能,例如多傳感器輸入、輔助任務(wù)和改進(jìn)的專家設(shè)計(jì),以使基于 BC 的端到端駕駛模型能夠處理具有挑戰(zhàn)性的城市駕駛場(chǎng)景。
      然而,存在一些與行為克隆相關(guān)的常見(jiàn)問(wèn)題。在訓(xùn)練過(guò)程中,行為克隆將每個(gè)狀態(tài)視為獨(dú)立且相同分布,從而導(dǎo)致一個(gè)稱為協(xié)變量偏移的重要問(wèn)題。對(duì)于一般的IL,已經(jīng)提出了幾種在策略方法來(lái)解決這個(gè)問(wèn)題。在端到端自動(dòng)駕駛的背景下,行為克隆的另一個(gè)常見(jiàn)問(wèn)題是因果混淆,即模仿者利用并依賴某些輸入組件和輸出信號(hào)之間的錯(cuò)誤相關(guān)性。這個(gè)問(wèn)題已經(jīng)在中的端到端自動(dòng)駕駛的背景下進(jìn)行了討論。基于模仿學(xué)習(xí)的端到端自動(dòng)駕駛的這兩個(gè)具有挑戰(zhàn)性的問(wèn)題將在后續(xù)文段中進(jìn)一步討論。
      2.3 行為克隆
      成本學(xué)習(xí)方法仍然存在一些挑戰(zhàn)。特別是,為了產(chǎn)生更現(xiàn)實(shí)的成本,通常會(huì)結(jié)合高清地圖、輔助感知任務(wù)和多個(gè)傳感器,這增加了多模態(tài)多任務(wù)框架的學(xué)習(xí)和構(gòu)建數(shù)據(jù)集的難度。為了解決這個(gè)問(wèn)題,MP3、ST-P3和 IVMP放棄了先前工作中使用的 HD 地圖輸入,并利用預(yù)測(cè)的 BEV 地圖來(lái)計(jì)算交通規(guī)則的成本,例如靠近中心線并避免與道路邊界發(fā)生碰撞。上述成本學(xué)習(xí)方法顯著增強(qiáng)了自動(dòng)駕駛汽車決策的安全性和可解釋性,相信受行業(yè)啟發(fā)的端到端系統(tǒng)設(shè)計(jì)是真正實(shí)現(xiàn)自動(dòng)駕駛汽車決策的可行方法。
      2.4 強(qiáng)化學(xué)習(xí)
      強(qiáng)化學(xué)習(xí)(RL)是一個(gè)通過(guò)反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)的領(lǐng)域。深度Q網(wǎng)絡(luò)(DQN)在Atari 2600基準(zhǔn)上實(shí)現(xiàn)人類級(jí)別的控制的成功已經(jīng)普及了深度強(qiáng)化學(xué)習(xí)。DQN 訓(xùn)練一個(gè)稱為批評(píng)家(或 Q 網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將當(dāng)前狀態(tài)和操作作為輸入,并預(yù)測(cè)該操作的貼現(xiàn)未來(lái)獎(jiǎng)勵(lì)(當(dāng)隨后遵循相同的策略時(shí))。然后通過(guò)選擇具有最高 Q 值的操作來(lái)隱式定義策略。強(qiáng)化學(xué)習(xí)需要一個(gè)允許執(zhí)行潛在不安全操作的環(huán)境,因?yàn)樗枰剿鳎ɡ纾袝r(shí)在數(shù)據(jù)收集期間執(zhí)行隨機(jī)操作)。此外,強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)需要更多的數(shù)據(jù)來(lái)訓(xùn)練。因此,現(xiàn)代強(qiáng)化學(xué)習(xí)方法通常會(huì)跨多個(gè)環(huán)境并行數(shù)據(jù)收集。在現(xiàn)實(shí)汽車中滿足這些要求提出了巨大的挑戰(zhàn)。因此,幾乎所有在自動(dòng)駕駛中使用強(qiáng)化學(xué)習(xí)的論文都只研究了仿真技術(shù)。
      實(shí)際上,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合已成功應(yīng)用于自動(dòng)駕駛。隱式可供性、GRI都使用監(jiān)督學(xué)習(xí)、語(yǔ)義分割和分類等輔助任務(wù)來(lái)預(yù)訓(xùn)練其架構(gòu)的 CNN 編碼器部分。在第二階段,預(yù)訓(xùn)練的編碼器被凍結(jié),并使用現(xiàn)代版本的 Q 學(xué)習(xí)對(duì)凍結(jié)圖像編碼器的隱式可供性進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)也已成功用于微調(diào) CARLA 上的完整架構(gòu),這些架構(gòu)是使用模仿學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練的。
      強(qiáng)化學(xué)習(xí)還被有效地應(yīng)用于網(wǎng)絡(luò)可以訪問(wèn)特權(quán)模擬器信息的規(guī)劃或控制任務(wù)。本著同樣的精神,強(qiáng)化學(xué)習(xí)已應(yīng)用于自動(dòng)駕駛的數(shù)據(jù)集管理。Roach在特權(quán) BEV 語(yǔ)義分割上訓(xùn)練 RL 方法,并使用該策略自動(dòng)收集用于訓(xùn)練下游模仿學(xué)習(xí)代理的數(shù)據(jù)集。WoR 采用 Q 函數(shù)和表格動(dòng)態(tài)規(guī)劃來(lái)為靜態(tài)數(shù)據(jù)集生成附加或改進(jìn)的標(biāo)簽。
      該領(lǐng)域未來(lái)的挑戰(zhàn)是將模擬結(jié)果轉(zhuǎn)移到現(xiàn)實(shí)世界。在強(qiáng)化學(xué)習(xí)中,目標(biāo)被表示為獎(jiǎng)勵(lì)函數(shù),大多數(shù)算法要求這些獎(jiǎng)勵(lì)函數(shù)是密集的,并在每個(gè)環(huán)境步驟提供反饋。當(dāng)前的工作通常使用簡(jiǎn)單的目標(biāo),例如進(jìn)度和避免碰撞,并將它們線性組合。這些簡(jiǎn)單化的獎(jiǎng)勵(lì)函數(shù)因鼓勵(lì)冒險(xiǎn)行為而受到批評(píng)。設(shè)計(jì)或?qū)W習(xí)更好的獎(jiǎng)勵(lì)函數(shù)仍然是一個(gè)懸而未決的問(wèn)題。另一個(gè)方向是開(kāi)發(fā)可以處理稀疏獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,從而直接優(yōu)化相關(guān)指標(biāo)。強(qiáng)化學(xué)習(xí)可以與世界模型有效結(jié)合,當(dāng)前自動(dòng)駕駛的 RL 解決方案嚴(yán)重依賴于場(chǎng)景的低維表示。
      強(qiáng)化學(xué)習(xí)已經(jīng)證明了在空蕩蕩的街道上的真車上成功學(xué)習(xí)車道跟隨。盡管早期結(jié)果令人鼓舞,但必須指出的是,三十年前就已經(jīng)通過(guò)模仿學(xué)習(xí)完成了類似的任務(wù)。迄今為止,還沒(méi)有報(bào)告顯示強(qiáng)化學(xué)習(xí)端到端訓(xùn)練的結(jié)果可以與模仿學(xué)習(xí)相媲美。在與 CARLA 模擬器發(fā)布一起進(jìn)行的直接比較中,強(qiáng)化學(xué)習(xí)遠(yuǎn)遠(yuǎn)落后于模塊化Pipeline和端到端模仿學(xué)習(xí)。這種失敗的原因很可能是通過(guò)強(qiáng)化學(xué)習(xí)獲得的梯度不足以訓(xùn)練駕駛所需的深度感知架構(gòu)(ResNet 規(guī)模)。RL取得成功的 Atari 等基準(zhǔn)測(cè)試中使用的模型相對(duì)較淺,僅由幾個(gè)層組成。
      3、標(biāo)桿管理

      自動(dòng)駕駛系統(tǒng)需要對(duì)其可靠性進(jìn)行全面評(píng)估以確保安全。為了實(shí)現(xiàn)這一目標(biāo),研究人員必須使用適當(dāng)?shù)臄?shù)據(jù)集、模擬器和指標(biāo)對(duì)這些系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試。端到端自動(dòng)駕駛系統(tǒng)大規(guī)模基準(zhǔn)測(cè)試有兩種方法:

    (1)模擬中的在線或閉環(huán)評(píng)估;

    (2)人類駕駛數(shù)據(jù)集的離線或開(kāi)環(huán)評(píng)估。其中需要特別關(guān)注更有原則性的在線設(shè)置,并提供離線評(píng)估的簡(jiǎn)要總結(jié)以確保完整性。

      4、挑戰(zhàn)
      對(duì)于圖 1 中所示的每個(gè)主題/問(wèn)題,我們現(xiàn)在討論相關(guān)工作、當(dāng)前挑戰(zhàn)以及有希望的未來(lái)趨勢(shì)和機(jī)遇。我們先基于處理不同輸入方式和公式相關(guān)的挑戰(zhàn)開(kāi)始。然后是關(guān)于高效政策學(xué)習(xí)的視覺(jué)抽象的討論。此外,我們還介紹了學(xué)習(xí)范式,例如世界模型學(xué)習(xí)、多任務(wù)框架和策略蒸餾。最后,我們討論阻礙安全可靠的端到端自動(dòng)駕駛的一般問(wèn)題,包括可解釋性、因果混亂、穩(wěn)健性和普遍性。
      不同的模式具有不同的特征,因此,需要有效融合它們并關(guān)注行動(dòng)關(guān)鍵特征的挑戰(zhàn)。這里我們以點(diǎn)云和圖像為例來(lái)描述各種融合策略。

圖片

圖3:輸入模式和融合策略的示例

      4.1 輸入方式
      4.1.1多傳感器融合
      盡管早期的工作成功實(shí)現(xiàn)了簡(jiǎn)單的自動(dòng)駕駛?cè)蝿?wù),例如使用單目攝像頭進(jìn)行車道跟蹤,但這種單一輸入模式不足以處理復(fù)雜的場(chǎng)景。因此,最近的自動(dòng)駕駛汽車上引入并配備了各種傳感器,如圖4所示。
      特別是,來(lái)自攝像頭的RGB圖像自然地復(fù)制了人類如何感知世界,具有豐富的語(yǔ)義視覺(jué)信息;LiDAR 或立體相機(jī)提供準(zhǔn)確的 3D 空間知識(shí)。此外,車速表和 IMU 的速度和加速度等車輛狀態(tài)以及高級(jí)導(dǎo)航命令是指導(dǎo)端到端系統(tǒng)的其他輸入線。然而,各種傳感器具有不同的視角和數(shù)據(jù)分布,它們之間的巨大差距給自動(dòng)駕駛的有效融合、互補(bǔ)帶來(lái)了巨大挑戰(zhàn)。
      多傳感器融合主要在感知相關(guān)領(lǐng)域進(jìn)行討論,例如物體檢測(cè)、跟蹤和語(yǔ)義分割,通常分為三類:早期、中、后期融合。端到端自動(dòng)駕駛算法探索類似的融合方案。早期融合意味著在將感知信息輸入特征提取器之前對(duì)其進(jìn)行組合。串聯(lián)是融合各種輸入的常用方法,例如圖像和深度、BEV點(diǎn)云和高清地圖等,然后使用共享特征提取器對(duì)其進(jìn)行處理。還有在 BEV 上繪制與透視圖像相同大小的 LiDAR 點(diǎn),并將它們組合作為輸入。為了解決視圖差異,一些工作嘗試在 2D 圖像上投影點(diǎn)云或通過(guò)提前預(yù)測(cè)圖像的語(yǔ)義標(biāo)簽為每個(gè) LiDAR 點(diǎn)附加一個(gè)附加通道。另一方面,后期融合方案結(jié)合了多模態(tài)的多個(gè)結(jié)果。由于其性能較差,因此討論較少。
      與這些方法相反,中間融合通過(guò)單獨(dú)編碼輸入,然后在特征級(jí)別將它們組合來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)的多傳感器融合。通用串聯(lián)模式也經(jīng)常被用來(lái)融合來(lái)自不同模態(tài)的特征。最近,有研究采用 Transformers來(lái)模擬特征對(duì)之間的交互。Transfuser使用兩個(gè)獨(dú)立的卷積編碼器處理圖像和 LiDAR 輸入,將每個(gè)分辨率的特征與 Transformer 編碼器互連,從而產(chǎn)生四階段特征融合。自注意力層用于傳感器Token令牌,關(guān)注感興趣的區(qū)域并更新來(lái)自其他模式的信息。MMFN 進(jìn)一步在 Transfurser 之上整合了 OpenDrive 地圖和雷達(dá)輸入。采用單級(jí) Transformer 編碼器架構(gòu)來(lái)融合最后一個(gè)編碼器塊之后的各種特征。注意力機(jī)制在聚合不同傳感器輸入的上下文和實(shí)現(xiàn)更安全的端到端駕駛性能方面表現(xiàn)出了巨大的有效性。
      4.1.2語(yǔ)言輸入自動(dòng)駕駛系統(tǒng)
      人類使用視覺(jué)感知和內(nèi)在知識(shí)(例如交通規(guī)則和所需路線)來(lái)駕駛汽車,它們共同形成因果行為。在一些與自動(dòng)駕駛相關(guān)的領(lǐng)域,例如機(jī)器人和室內(nèi)導(dǎo)航(也稱為嵌入式人工智能),將自然語(yǔ)言作為細(xì)粒度指令來(lái)控制視覺(jué)運(yùn)動(dòng)代理已取得顯著進(jìn)展。

      然而,室外自動(dòng)駕駛?cè)蝿?wù)與室內(nèi)機(jī)器人應(yīng)用相比,在以下情況下具有不同的特點(diǎn):

    (1)室外環(huán)境未知,車輛無(wú)法來(lái)回探索。

    (2)鮮明的錨點(diǎn)標(biāo)志很少,給語(yǔ)言指令的落地帶來(lái)了巨大的挑戰(zhàn)。

    (3)駕駛場(chǎng)景更加復(fù)雜,具有連續(xù)的動(dòng)作空間和高度動(dòng)態(tài)的代理。

      操縱過(guò)程中,安全是重中之重。為了將語(yǔ)言知識(shí)融入到駕駛行為中,Talk2Car數(shù)據(jù)集提供了在室外環(huán)境中定位參考對(duì)象的基準(zhǔn)。Talk2Nav、TouchDown和 Map2Seq數(shù)據(jù)集引入了使用 Google 街景的視覺(jué)語(yǔ)言導(dǎo)航任務(wù)。將世界建模為離散連接圖,并需要以節(jié)點(diǎn)選擇格式導(dǎo)航到目標(biāo)。HAD首先采用人對(duì)車的建議,并使用基于 LSTM 的控制器添加視覺(jué)接地任務(wù)。將自然語(yǔ)言指令編碼為高級(jí)行為,包括左轉(zhuǎn)、右轉(zhuǎn)、不左轉(zhuǎn)等,并在 CARLA 模擬器中驗(yàn)證他們的語(yǔ)言引導(dǎo)導(dǎo)航方法。后面,相關(guān)研究又通過(guò)關(guān)注文本動(dòng)作命令來(lái)解決低級(jí)實(shí)時(shí)控制問(wèn)題。最近,CLIP-MC和 LM-Nav 利用 CLIP,受益于大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練,從指令中提取語(yǔ)言知識(shí),從圖像中提取視覺(jué)特征。它們展示了預(yù)訓(xùn)練模型的優(yōu)勢(shì),并為使用多模態(tài)模型解決復(fù)雜的導(dǎo)航任務(wù)提供了一個(gè)有吸引力的原型。
      不同的模式通常會(huì)帶來(lái)更大的視野和感知準(zhǔn)確性,但融合它們來(lái)提取端到端自動(dòng)駕駛的關(guān)鍵信息還需要進(jìn)一步探索。必須在統(tǒng)一空間(例如 BEV)中對(duì)這些模式進(jìn)行建模,識(shí)別與政策相關(guān)的背景,并丟棄不相關(guān)的感知信息。此外,充分利用強(qiáng)大的 Transformer 架構(gòu)仍然是一個(gè)挑戰(zhàn)。自注意力層將所有令牌互連以自由建模其感興趣的領(lǐng)域,但它會(huì)產(chǎn)生大量的計(jì)算成本,并且不能保證有用的信息提取。感知領(lǐng)域更先進(jìn)的基于 Transformer 的多傳感器融合機(jī)制,也在逐步應(yīng)用于端到端駕駛?cè)蝿?wù)。
      4.2 視覺(jué)抽象
      端到端自動(dòng)駕駛系統(tǒng)大致分兩個(gè)階段實(shí)現(xiàn)操縱任務(wù):將狀態(tài)空間編碼為潛在特征表示,然后用中間特征解碼駕駛策略。在城市駕駛的情況下,輸入狀態(tài),即周圍環(huán)境和自我狀態(tài),與視頻游戲等常見(jiàn)的政策學(xué)習(xí)基準(zhǔn)相比更加多樣化和高維。因此,首先使用代理預(yù)訓(xùn)練任務(wù)來(lái)預(yù)訓(xùn)練網(wǎng)絡(luò)的視覺(jué)編碼器是有幫助的。這使得網(wǎng)絡(luò)能夠有效地提取對(duì)駕駛有用的信息,從而促進(jìn)后續(xù)的策略解碼階段,同時(shí)滿足所有端到端算法的內(nèi)存和模型大小限制。此外,這可以提高 RL 方法的樣本效率。
      視覺(jué)抽象或表示學(xué)習(xí)的過(guò)程通常包含某些歸納偏差或先驗(yàn)信息。為了實(shí)現(xiàn)比原始圖像更緊湊的表示,一些方法直接利用預(yù)訓(xùn)練分割網(wǎng)絡(luò)中的語(yǔ)義分割掩模作為后續(xù)策略訓(xùn)練的輸入表示。SESR更進(jìn)一步,通過(guò) VAE 將分割掩碼編碼為類解纏結(jié)表示。另外,預(yù)測(cè)的可供性指標(biāo),例如交通燈狀態(tài)、速度、車道中心偏移、危險(xiǎn)指標(biāo)和與領(lǐng)先車輛的距離,被用作策略學(xué)習(xí)的表示。
      在觀察到分割或可供性作為表示可能會(huì)造成人類定義的瓶頸并導(dǎo)致有用信息的丟失后,一些人選擇了預(yù)訓(xùn)練任務(wù)中的中間潛在特征作為有效的表示。ImageNet預(yù)訓(xùn)練模型的早期層可以作為有效的表示。采用通過(guò)語(yǔ)義分割和/或可供性預(yù)測(cè)等任務(wù)預(yù)先訓(xùn)練的潛在表示作為強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入,并取得優(yōu)異的性能。比如,有在VAE中的潛在特征通過(guò)從分割的擴(kuò)散邊界和深度圖獲得的注意力圖來(lái)增強(qiáng),以突出重要區(qū)域。或者通過(guò)運(yùn)動(dòng)預(yù)測(cè)和深度估計(jì)以自我監(jiān)督的方式在未標(biāo)記的駕駛視頻上學(xué)習(xí)有效的表示。也有利用一系列先前任務(wù)的數(shù)據(jù)來(lái)執(zhí)行與任務(wù)相關(guān)的不同預(yù)測(cè)任務(wù),以獲得有用的表示。同時(shí),潛在表示是通過(guò)近似來(lái)學(xué)習(xí)互模擬度量,由動(dòng)態(tài)模型的獎(jiǎng)勵(lì)和輸出的差異組成。除了這些帶有監(jiān)督預(yù)測(cè)的預(yù)訓(xùn)練任務(wù)之外,還采用了基于增強(qiáng)視圖的無(wú)監(jiān)督對(duì)比學(xué)習(xí)。進(jìn)一步將轉(zhuǎn)向角辨別添加到對(duì)比學(xué)習(xí)結(jié)構(gòu)中。
      由于當(dāng)前的方法主要依賴于人類定義的預(yù)訓(xùn)練任務(wù),因此學(xué)習(xí)到的表示不可避免地存在可能的信息瓶頸,并且可能包含與駕駛決策無(wú)關(guān)的冗余信息。因此,如何在表示學(xué)習(xí)過(guò)程中更好地提取驅(qū)動(dòng)政策的關(guān)鍵信息仍然是一個(gè)懸而未決的問(wèn)題。
      4.3 世界模型和基于模型的強(qiáng)化學(xué)習(xí)
      除了更好地抽象感知表示的能力之外,端到端模型對(duì)未來(lái)做出合理的預(yù)測(cè)以采取安全的操作也至關(guān)重要。在本節(jié)中,我們主要討論當(dāng)前基于模型的政策學(xué)習(xí)工作的挑戰(zhàn),其中世界模型為政策模型提供了明確的未來(lái)預(yù)測(cè)。
      深度強(qiáng)化學(xué)習(xí)通常會(huì)面臨樣本復(fù)雜度高的挑戰(zhàn),這對(duì)于自動(dòng)駕駛等任務(wù)來(lái)說(shuō)尤其明顯,因?yàn)闃颖究臻g很大。基于模型的強(qiáng)化學(xué)習(xí)(MBRL)通過(guò)允許代理與學(xué)習(xí)的世界模型而不是實(shí)際環(huán)境進(jìn)行交互,為提高樣本效率提供了一個(gè)有前途的方向。MBRL方法顯式地對(duì)世界模型/環(huán)境模型進(jìn)行建模,該模型由過(guò)渡動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)組成,并且代理可以以較低的成本與之交互。這對(duì)于自動(dòng)駕駛特別有幫助,因?yàn)橄?CARLA 這樣的 3D 模擬器相對(duì)較慢。
      對(duì)高度復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境進(jìn)行建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了簡(jiǎn)化問(wèn)題,假設(shè)世界是在軌道上的,將過(guò)渡動(dòng)力學(xué)分解為非反應(yīng)性世界模型和自車的簡(jiǎn)單運(yùn)動(dòng)學(xué)自行車模型。利用分解世界模型和獎(jiǎng)勵(lì)函數(shù)來(lái)豐富靜態(tài)數(shù)據(jù)集的標(biāo)簽,通過(guò)動(dòng)態(tài)編程優(yōu)化更好的標(biāo)簽。概率序列潛在模型被用作世界模型來(lái)降低強(qiáng)化學(xué)習(xí)的樣本復(fù)雜性。為了解決學(xué)習(xí)世界模型潛在的不準(zhǔn)確性問(wèn)題,使用多個(gè)世界模型的集合來(lái)提供不確定性評(píng)估。基于不確定性,世界模型和政策代理之間的想象推出可以相應(yīng)地被截?cái)嗪驼{(diào)整。受成功的 MBRL 模型 Dreamer的啟發(fā),ISO-Dream考慮環(huán)境中的非確定性因素,并將視覺(jué)動(dòng)態(tài)解耦為可控和不可控狀態(tài)。然后,策略在分離狀態(tài)上進(jìn)行訓(xùn)練,明確考慮不可控因素(例如其他智能體的運(yùn)動(dòng))。
      在原始圖像空間中學(xué)習(xí)世界模型并不適合自動(dòng)駕駛。預(yù)測(cè)圖像中很容易錯(cuò)過(guò)重要的小細(xì)節(jié),例如交通信號(hào)燈。為了解決這個(gè)問(wèn)題,MILE將世界模型合并到 BEV 語(yǔ)義分割空間中。它將世界建模與模仿學(xué)習(xí)結(jié)合起來(lái),采用Dreamer式的世界模型學(xué)習(xí)作為輔助任務(wù)。SEM2還擴(kuò)展了 Dreamer 結(jié)構(gòu),但使用了 BEV 分割圖,并使用 RL 進(jìn)行訓(xùn)練。除了直接使用 MBRL 學(xué)習(xí)到的世界模型之外,DeRL 將無(wú)模型的行動(dòng)者評(píng)論家框架與世界模型結(jié)合起來(lái)。具體來(lái)說(shuō),學(xué)習(xí)的世界模型提供了對(duì)當(dāng)前行為的自我評(píng)估,它與評(píng)論家的狀態(tài)值相結(jié)合,以更好地了解車輛的表現(xiàn)。
      用于端到端自動(dòng)駕駛的世界模型學(xué)習(xí)(MBRL)是一個(gè)新興且有前途的方向,因?yàn)樗蟠蠼档土?RL 的樣本復(fù)雜性,并且了解世界有助于駕駛。然而,由于駕駛環(huán)境高度復(fù)雜和動(dòng)態(tài),仍需要進(jìn)一步研究來(lái)確定需要建模的內(nèi)容以及如何有效地建模世界。
      4.4 帶有策略預(yù)測(cè)的多任務(wù)學(xué)習(xí)
      多任務(wù)學(xué)習(xí)(MTL)涉及通過(guò)單獨(dú)的分支/頭基于共享表示聯(lián)合執(zhí)行多個(gè)相關(guān)任務(wù)。MTL 通過(guò)使用單個(gè)模型執(zhí)行多個(gè)任務(wù),顯著降低了計(jì)算成本。此外,相關(guān)領(lǐng)域知識(shí)在共享模型內(nèi)共享,并且可以更好地利用任務(wù)關(guān)系來(lái)提高模型的泛化能力和魯棒性。因此,MTL非常適合端到端的自動(dòng)駕駛,最終的政策預(yù)測(cè)需要對(duì)當(dāng)前環(huán)境進(jìn)行全面了解。
      與需要密集預(yù)測(cè)的常見(jiàn)視覺(jué)任務(wù)相比,端到端自動(dòng)駕駛預(yù)測(cè)稀疏信號(hào)。這里的稀疏監(jiān)督給輸入編碼器提取有用信息以進(jìn)行決策帶來(lái)了挑戰(zhàn)。對(duì)于圖像輸入,端到端自動(dòng)駕駛模型中普遍采用語(yǔ)義分割和深度估計(jì)等輔助任務(wù)。語(yǔ)義分割確保模型獲得對(duì)場(chǎng)景的高層次理解并識(shí)別不同類別的物體;深度估計(jì)使模型能夠理解環(huán)境的 3D 幾何形狀,并更好地估計(jì)到關(guān)鍵物體的距離。通過(guò)執(zhí)行這些任務(wù),圖像編碼器可以更好地提取有用且有意義的特征表示,以供后續(xù)規(guī)劃。除了透視圖像上的輔助任務(wù)之外,3D 對(duì)象檢測(cè)對(duì)于 LiDAR 編碼器也很有用。     
      隨著B(niǎo)EV 成為自動(dòng)駕駛的自然且流行的代表,高清地圖映射和 BEV 分割等任務(wù)被包含在聚合 BEV 空間特征的模型中。此外,除了這些多任務(wù)視覺(jué)任務(wù)之外,還有針對(duì)預(yù)測(cè)視覺(jué)可供性,包括交通燈狀態(tài)、到路口的距離以及到對(duì)面車道的距離等。
      端到端自動(dòng)駕駛的多任務(wù)學(xué)習(xí)已證明其在提高性能和提供自動(dòng)駕駛模型的可解釋性方面的有效性。然而,輔助任務(wù)的最佳組合以及其損失的適當(dāng)權(quán)重以實(shí)現(xiàn)最佳性能仍有待探索。此外,構(gòu)建具有多種類型的對(duì)齊和高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集提出了重大挑戰(zhàn)。
      4.5 政策蒸餾
      由于模仿學(xué)習(xí)或其主要子類別行為克隆只是模仿專家行為的監(jiān)督學(xué)習(xí),因此相應(yīng)的方法通常遵循“師生”范式。教師(例如 CARLA 提供的手工制作的專家自動(dòng)駕駛儀)可以訪問(wèn)周圍智能體和地圖元素的真實(shí)狀態(tài),而學(xué)生則通過(guò)收集的專家軌跡或僅使用原始傳感器輸入的控制信號(hào)來(lái)直接監(jiān)督。這給學(xué)生模型帶來(lái)了巨大的挑戰(zhàn),因?yàn)樗麄儾粌H必須提取感知特征,還必須從頭開(kāi)始學(xué)習(xí)駕駛策略。
      為了解決上述困難,一些研究提出將學(xué)習(xí)過(guò)程分為兩個(gè)階段,即訓(xùn)練教師網(wǎng)絡(luò),然后將策略提煉為最終的學(xué)生網(wǎng)絡(luò)。特別是,首先使用特權(quán)代理來(lái)學(xué)習(xí)如何直接訪問(wèn)環(huán)境狀態(tài)。然后,他們讓感覺(jué)運(yùn)動(dòng)代理(學(xué)生網(wǎng)絡(luò))密切模仿特權(quán)代理,并在輸出階段進(jìn)行蒸餾。通過(guò)更緊湊的 BEV 表示作為特權(quán)代理的輸入,它提供了比原始專家更強(qiáng)的泛化能力和監(jiān)督。該過(guò)程如圖 5 所示。LAV進(jìn)一步賦予特權(quán)代理預(yù)測(cè)所有附近車輛軌跡的能力,并將這種能力提煉給使用視覺(jué)特征的學(xué)生網(wǎng)絡(luò)。

圖片

圖 4:政策蒸餾(a)特權(quán)代理通過(guò)訪問(wèn)特權(quán)真實(shí)信息來(lái)學(xué)習(xí)穩(wěn)健的策略。專家用虛線標(biāo)記,表明如果特權(quán)代理通過(guò) RL 進(jìn)行訓(xùn)練,則不是強(qiáng)制性的。(b) 感覺(jué)運(yùn)動(dòng)智能體通過(guò)特征蒸餾和輸出模仿來(lái)模仿特權(quán)智能體。

      除了直接監(jiān)督規(guī)劃結(jié)果之外,一些工作還通過(guò)在特征級(jí)別提取知識(shí)來(lái)訓(xùn)練其預(yù)測(cè)模型。例如,F(xiàn)M-Net采用現(xiàn)成的網(wǎng)絡(luò),包括分割和光流模型,作為輔助教師來(lái)指導(dǎo)特征訓(xùn)練。盡管人們付出了大量的努力來(lái)設(shè)計(jì)更強(qiáng)大的專家并將知識(shí)從教師傳授給不同級(jí)別的學(xué)生,但師生范式仍然存在提煉效率低下的問(wèn)題。正如之前的所有作品所示,視覺(jué)運(yùn)動(dòng)網(wǎng)絡(luò)與其特權(quán)代理相比表現(xiàn)出巨大的性能差距。例如,特權(quán)代理可以訪問(wèn)交通信號(hào)燈的真實(shí)狀態(tài),它們是圖像中的小物體,對(duì)提取相應(yīng)特征提出了挑戰(zhàn),這可能會(huì)導(dǎo)致學(xué)生的因果混亂。因此,如何從機(jī)器學(xué)習(xí)中的通用蒸餾方法中汲取更多靈感來(lái)縮小差距是值得探索的。


總結(jié)

      我們首先討論端到端自動(dòng)駕駛系統(tǒng)的動(dòng)機(jī)和路線圖。端到端方法可以大致分為模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),我們對(duì)這些方法進(jìn)行了簡(jiǎn)要回顧。我們涵蓋閉環(huán)和開(kāi)環(huán)評(píng)估的數(shù)據(jù)集和基準(zhǔn)。我們總結(jié)了一系列關(guān)鍵挑戰(zhàn),包括可解釋性、泛化、世界模型、因果混亂等。后續(xù)文章我們將接續(xù)本文進(jìn)一步討論端到端自動(dòng)駕駛索要面臨的一系列挑戰(zhàn)。并重點(diǎn)分析其應(yīng)該接受的未來(lái)趨勢(shì),幫助讀者可以有效的整合數(shù)據(jù)引擎、大型基礎(chǔ)模型和車輛到一切的最新發(fā)展。
上海創(chuàng)程車聯(lián)網(wǎng)絡(luò)科技有限公司版權(quán)所有 滬ICP備11045498號(hào)-1   技術(shù)支持:網(wǎng)站建設(shè)
主站蜘蛛池模板: 国产精品久久网站|欧美老熟妇=a=a=a=a=a=a|亚洲啊v在线|精品久久久免费|亚洲=aV无码专区在线观看成人|免费观看又色又爽又黄的崩锅 | 日韩=av无码精品一二三区|免费看成年视频|亚洲精品久久久蜜桃动漫|无码VR最新无码=aV专区|97久久久久人妻精品专区|一区精品在线观看 | 强奷乱码欧妇女中文字幕熟女|中国女人FREE性HD|国产精品一码二码三码在线|少妇性l交大片免费快色|久热=av在线|黑人巨大人精品欧美三区 | 日韩精品成人=av|午夜精品一区二区三区免费视频|亚洲精品国产综合久久一线|国产三级=aV在在线观看|GV无码免费无禁网站男男|欧美videos另类极品 | 日本一区三区|欧美成人日韩|中国内地毛片免费高清|影音先锋国产精品|成人一级福利|精品一区二区三区国产 | 日日噜噜夜夜狠狠扒开双腿|欧美人成在线观看|美丽的姑娘免费观看在线播放|欧美性猛交xxxx乱大交密桃|亚洲精品国产字幕久久麻豆|日本裸交xx╳╳137大胆 | 任你躁国产自任一区二区三区|日韩成人精品视频在线观看|少妇高潮呻吟=a片免费看软件|国产精品一区二区三区=av|成年免费视频黄网站在线观看|四虎WWW永久在线精品 | 免费无码黄网站在线看|九九在线精品视频|h黄动漫免费网站|成人小说亚洲一区二区三区|极品老师腿张开粉嫩小泬|婷婷开心中文字幕 | 在线观看免费黄网|久久久久久久久久久鸭|91社影院|日本一区免费网站|尹人香蕉久久99天天拍|任我爽橹在线精品视频 | #NAME?|欧美成人免费网站|亚洲成人天堂|日本一级视频在线观看|VR欧美乱强伦XXXXX|国产国语对白露脸正在播放 | 嗯嗯嗯在线观看|亚洲国产欧美日本视频|国产成人综合色就色综合|国产精品自拍500|国产精品91一区二区三区|免费黄色成人 | 日韩亚洲欧美中文字幕|国产精品久久久久久亚洲调教|5060网永久免费=a级毛片|人妻少妇久久久久久97人妻|国产成人无码=a区视频在线观看|欧美理论视频 | 国产成人无码久久久精品一|六月成人网|国产精品久久久久9999高清|#NAME?|看片网站在线观看|在线观看精品国产 国产精品久久久久久免费观看|黄色=a毛片|日韩欧美亚洲一区二区|日韩午夜免费视频|日本三级网站视频|欧美性生恔XXXXXDDDD | 把女人弄爽=a片免费视频|999精品免费视频|五月婷在线|高清色惰WWW日本COM|一二三区=av|永久在线观看免费视频 | 国产=a三级三级三级看三级|不卡中文|国产免费午夜福利757|h在线视频|熟女人妻=aV完整一区二区三区|J=aP=aN白嫩丰满人妻VIDEOS | 巜豪妇荡乳2在线观看|又粗又硬进去好爽=a片视频野花|6969成人亚洲婷婷|99视频免费播放|97国产在线播放第一页|人人人澡人人人妻人人人少妇 | 久久久久无码国产精品一区乞丐|97一区二区三区|成人影院久久|九九九免费|俄罗斯18一19sex性大|国产精品一二三四区免费 | 中文字幕免费中文|青青草免费在线视频观看|91探花系列在线播放|国产精品久久久久久久久久免|18禁真人抽搐一进一出在线|日本三级韩国三级人妻 | 中国黄色影院|99精品一区二区三区|久久成人久久|疯狂做受XXXX高潮吃奶|欧洲精品二区|激情超碰在线 | 亚洲激情在线观看视频|一区二区和激情视频|亚洲男人的天堂色偷免费|女人被爽到高潮视频|久操社区|亚洲无色 | 少妇天天干|一本久道久久综合中文字幕|色哟哟国产成人精品免费|国产主播户外勾搭人xx|精品无人区无码乱码毛片国产|亚洲欧美中日精品高清一区二区 | 老汉=av免费一区二区三区|国产又大又黑又粗免费视频|黄大片日本一级在线=a|成年人黄色毛片|亚洲精品一区二区三区免|国产精品91大屁股白浆一区二区 | 爱如潮水日本|宅男噜噜噜66网站高清|午夜宅男在线永久免费观看网|日日日干|国产成人精品一区二区三区无码|国产成人高清在线观看播放 | 亚洲特黄一级大片|91麻豆传媒|国产毛片儿|www..com黄瓜|野花香日本大全免费观看|国产精品宅男擼66M3U8 | 亚洲精品无码成人=a片|国产美女口爆吞精普通话|国产精品国产三级国产专播i12|91精品国产一区自在线拍|日韩特级|成人在线免费观看小视频 | 欧美性生活在线观看|亚洲免费视频专区|国产精品2024|免费网站国产|欧美男男作爱G=aYWWW|国产伦精品一区二区三区视 | 91精品一区二区三区在线|情侣偷拍在线一区|天堂网在线.www天堂|成人=a毛片免费全部播放|日本国产一区二区|美女被日在线观看 | 肉体裸体xxxxx免费观看|国产乱妇乱子在线播放视频|日本免费无遮挡毛片的意义|国产无套乱子伦精彩无码视频|国产一区二区h|亚洲色图网址 | www.成人69.com|欧美在线免费观看|国产亚洲精品久久久久无码|亚洲丰满熟女一区二区哦|天天干一干|日本在线视频www | 久久久国产精品V=a麻豆|XUNLEIGE无码新入口|免费看少妇作爱视频|97久久超碰国产精品旧版|国产成人综合久久免费导航|精品国产成人=aV在线 | 爆乳肉体大杂交SOE646在线|51vv社区视频在线视频观看|中文视频在线观看|国产网红=av|久久婷婷五月综合色奶水99啪|国产一级淫片免费 | 日韩三级在线免费观看|久久艹艹|色爱综合另类图片=av|国内久久精品视频|xx69在线观看|亚洲国产一区二区精品 | 国产亚洲精品一区二区三区|狠狠插综合网|把女人弄爽特黄=a大片3人|国产精品99久久久久久人免费|永夜星河免费在线观看|日日做=a爰片久久毛片=a片英语 | 性生大片免费观看668|亚洲成人=av影片|毛片大全真人在线|国产老女人高潮大全|中文字幕丰满|一本久久久久 | 欧美z0zo人禽交|欧美大杂交18p|国内精自线一二区永久|久久久久久久久国产一区|国产v=a免费精品观看精品|eeuss影院www在线观看 | 成人免费高清|精品色呦呦|国产另类ts人妖一区二区|99热精品在线|国产人免费人成免费视频|欧美国产日韩二区 | 牛牛热在线视频|久久精品2024|久久久久久国产一区二区三区|波多野结衣乳巨码无在线观看|亚洲综合色视频在线观看|草的爽=aV导航 | 成全高清视频免费观看|亚欧在线观看视频|天天躁日日躁狠狠躁欧美老妇|性感一级片|日韩一区免费观看|欧美日韩在线免费观看 | 人妻无码中文字幕|免费人成视频xvideos在线看|欧美色呦呦|久草在线中文视频|精品无码久久久久久久久水蜜桃|色婷婷久综合久久一本国产=aV | 亚洲国产精品一区二区制服换脸|中文字幕极品|文中字幕一区二区三区视频播放|亚洲欧洲美洲综合色网|成人爱爱=a=a啪啪看片|五十六十老熟女HD60 | 男人日女人视频网站|被女同桌调教成鞋袜奴脚奴|一品道门免费视频日本|国产高清在线=a视频大全|亚洲成人在线视频观看|天天·日日日干 |