在线日韩三级,黄色成人免费视频,综合成人亚洲偷自拍色

您當(dāng)前的位置：首頁(yè) ? 行業(yè)資訊 ? 行業(yè)資訊

全面帶你了解端到端大模型的底層邏輯（一）

發(fā)布日期：2024-10-29

作者 | Jessie

出品 | 焉知

自動(dòng)駕駛領(lǐng)域的發(fā)展見(jiàn)證了采用端到端算法框架的方法的快速增長(zhǎng)，這些方法利用原始傳感器輸入來(lái)生成車輛運(yùn)動(dòng)計(jì)劃，而不是專注于檢測(cè)和運(yùn)動(dòng)預(yù)測(cè)等單個(gè)任務(wù)。與模塊化管道相比，端到端系統(tǒng)受益于感知和規(guī)劃的聯(lián)合特征優(yōu)化。由于大規(guī)模數(shù)據(jù)集的可用性、閉環(huán)評(píng)估以及對(duì)自動(dòng)駕駛算法在具有挑戰(zhàn)性的場(chǎng)景中有效執(zhí)行的需求不斷增加，該領(lǐng)域蓬勃發(fā)展。

傳統(tǒng)的自動(dòng)駕駛系統(tǒng)采用模塊化部署策略，其中感知、預(yù)測(cè)、規(guī)劃等各個(gè)功能都是單獨(dú)開(kāi)發(fā)并集成到車載車輛中。規(guī)劃或控制模塊負(fù)責(zé)生成轉(zhuǎn)向和加速輸出，在確定駕駛體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。模塊化Pipeline中最常見(jiàn)的規(guī)劃方法涉及使用復(fù)雜的基于規(guī)則的設(shè)計(jì)，這通常無(wú)法有效解決駕駛時(shí)發(fā)生的大量情況。因此，利用大規(guī)模數(shù)據(jù)并使用基于學(xué)習(xí)的規(guī)劃作為可行的替代方案的趨勢(shì)日益明顯。
我們將端到端自動(dòng)駕駛系統(tǒng)定義為完全可微分的程序，該程序?qū)⒃紓鞲衅鲾?shù)據(jù)作為輸入并生成計(jì)劃或低級(jí)控制操作作為輸出。圖 1 (a)-(b) 說(shuō)明了經(jīng)典公式和端到端公式之間的差異。傳統(tǒng)方法將每個(gè)組件的輸出（例如邊界框和車輛軌跡）直接輸入后續(xù)單元（虛線箭頭）。相反，端到端范式跨組件傳播特征表示（灰色實(shí)線箭頭）。例如，優(yōu)化函數(shù)設(shè)置為規(guī)劃性能，并通過(guò)反向傳播（紅色箭頭）最小化損失，在此過(guò)程中任務(wù)得到聯(lián)合全局優(yōu)化。

圖 1：自動(dòng)駕駛端到端整體概覽

本文首次提供了端到端自動(dòng)駕駛的全面分析，包括高層動(dòng)機(jī)、方法論、基準(zhǔn)等。我們提倡的不是單個(gè)模塊的優(yōu)化，而是整體設(shè)計(jì)算法框架的理念，最終目標(biāo)是實(shí)現(xiàn)安全舒適的駕駛。
1、端到端系統(tǒng)的動(dòng)機(jī)
在經(jīng)典Pipeline中，每個(gè)模型都提供獨(dú)立的組件并對(duì)應(yīng)于特定的任務(wù)（例如交通燈檢測(cè)）。這樣的設(shè)計(jì)在可解釋性、可驗(yàn)證性和易于調(diào)試方面是有益的。然而，由于各個(gè)模塊的優(yōu)化目標(biāo)不同，感知中的檢測(cè)追求平均精度（mAP），而規(guī)劃則以駕駛安全性和舒適性為目標(biāo)，整個(gè)系統(tǒng)可能不會(huì)朝著一個(gè)統(tǒng)一的目標(biāo)，即最終的規(guī)劃/控制任務(wù)。隨著順序過(guò)程的進(jìn)行，每個(gè)模塊的錯(cuò)誤可能會(huì)加劇并導(dǎo)致驅(qū)動(dòng)系統(tǒng)的信息丟失。此外，多任務(wù)、多模型部署可能會(huì)增加計(jì)算負(fù)擔(dān)，并可能導(dǎo)致計(jì)算使用不佳。
與傳統(tǒng)的對(duì)應(yīng)系統(tǒng)相比，端到端自治系統(tǒng)具有多種優(yōu)勢(shì)。(a) 最明顯的優(yōu)點(diǎn)是它簡(jiǎn)單地將感知、預(yù)測(cè)和規(guī)劃結(jié)合到一個(gè)可以聯(lián)合訓(xùn)練的模型中。(b) 整個(gè)系統(tǒng)，包括其中間表示，針對(duì)最終任務(wù)進(jìn)行了優(yōu)化。(c) 共享主干網(wǎng)提高了計(jì)算效率。(d) 數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化有可能通過(guò)簡(jiǎn)單地?cái)U(kuò)展培訓(xùn)資源來(lái)提供改進(jìn)系統(tǒng)的新興能力。
請(qǐng)注意，端到端范式不一定表示只有規(guī)劃/控制輸出的黑匣子。它可以像經(jīng)典方法一樣采用中間表示和輸出進(jìn)行模塊化（圖 1 (b)）。事實(shí)上，一些最先進(jìn)的系統(tǒng)提出了模塊化設(shè)計(jì)，但同時(shí)優(yōu)化所有組件以實(shí)現(xiàn)卓越的性能。
本文重點(diǎn)說(shuō)明了三種流行的范式，包括兩種模仿學(xué)習(xí)框架（行為克隆和逆最優(yōu)控制）以及在線強(qiáng)化學(xué)習(xí)。
2、方法
本文回顧大多數(shù)現(xiàn)有端到端自動(dòng)駕駛方法背后的基本原理。并討論了使用模仿學(xué)習(xí)的方法，并提供了兩個(gè)最流行的子類別的詳細(xì)信息，即行為克隆和逆最優(yōu)控制。最后，總結(jié)了遵循強(qiáng)化學(xué)習(xí)范式的方法。

圖 2：端到端自動(dòng)駕駛方法概述

2.1 模仿學(xué)習(xí)
模仿學(xué)習(xí)（IL），也稱為從演示中學(xué)習(xí)，通過(guò)模仿專家的行為來(lái)訓(xùn)練智能體學(xué)習(xí)最優(yōu)策略。IL 需要數(shù)據(jù)集

包含根據(jù)專家的政策收集的軌跡

，其中每個(gè)軌跡都是狀態(tài)-動(dòng)作對(duì)的序列

。IL 的目標(biāo)是學(xué)習(xí)代理策略

匹配

。IL 的一個(gè)重要且廣泛使用的類別是行為克隆（BC，Behavior Clone），它將問(wèn)題歸結(jié)為監(jiān)督學(xué)習(xí)。逆向最優(yōu)控制（IOC），也稱為逆向強(qiáng)化學(xué)習(xí)（IRL），是另一種 IL 方法，它利用專家演示來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。我們將在以下幾節(jié)中詳細(xì)說(shuō)明這兩個(gè)類別。
2.2 行為克隆
行為克隆BC 在駕駛?cè)蝿?wù)中的早期應(yīng)用利用端到端神經(jīng)網(wǎng)絡(luò)從攝像頭輸入生成控制信號(hào)。在行為克隆中，將代理策略與專家策略相匹配的目標(biāo)是通過(guò)最小化計(jì)劃損失來(lái)實(shí)現(xiàn)的，作為收集數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)問(wèn)題：

。這里，

表示一個(gè)損失函數(shù)，用于測(cè)量代理動(dòng)作和專家動(dòng)作之間的距離。行為克隆因其簡(jiǎn)單和高效而具有優(yōu)勢(shì)，因?yàn)樗恍枰止ぴO(shè)計(jì)的獎(jiǎng)勵(lì)設(shè)計(jì)，而這對(duì)于強(qiáng)化學(xué)習(xí)至關(guān)重要。已有學(xué)者提出了進(jìn)一步的增強(qiáng)功能，例如多傳感器輸入、輔助任務(wù)和改進(jìn)的專家設(shè)計(jì)，以使基于 BC 的端到端駕駛模型能夠處理具有挑戰(zhàn)性的城市駕駛場(chǎng)景。
然而，存在一些與行為克隆相關(guān)的常見(jiàn)問(wèn)題。在訓(xùn)練過(guò)程中，行為克隆將每個(gè)狀態(tài)視為獨(dú)立且相同分布，從而導(dǎo)致一個(gè)稱為協(xié)變量偏移的重要問(wèn)題。對(duì)于一般的IL，已經(jīng)提出了幾種在策略方法來(lái)解決這個(gè)問(wèn)題。在端到端自動(dòng)駕駛的背景下，行為克隆的另一個(gè)常見(jiàn)問(wèn)題是因果混淆，即模仿者利用并依賴某些輸入組件和輸出信號(hào)之間的錯(cuò)誤相關(guān)性。這個(gè)問(wèn)題已經(jīng)在中的端到端自動(dòng)駕駛的背景下進(jìn)行了討論。基于模仿學(xué)習(xí)的端到端自動(dòng)駕駛的這兩個(gè)具有挑戰(zhàn)性的問(wèn)題將在后續(xù)文段中進(jìn)一步討論。
2.3 行為克隆
成本學(xué)習(xí)方法仍然存在一些挑戰(zhàn)。特別是，為了產(chǎn)生更現(xiàn)實(shí)的成本，通常會(huì)結(jié)合高清地圖、輔助感知任務(wù)和多個(gè)傳感器，這增加了多模態(tài)多任務(wù)框架的學(xué)習(xí)和構(gòu)建數(shù)據(jù)集的難度。為了解決這個(gè)問(wèn)題，MP3、ST-P3和 IVMP放棄了先前工作中使用的 HD 地圖輸入，并利用預(yù)測(cè)的 BEV 地圖來(lái)計(jì)算交通規(guī)則的成本，例如靠近中心線并避免與道路邊界發(fā)生碰撞。上述成本學(xué)習(xí)方法顯著增強(qiáng)了自動(dòng)駕駛汽車決策的安全性和可解釋性，相信受行業(yè)啟發(fā)的端到端系統(tǒng)設(shè)計(jì)是真正實(shí)現(xiàn)自動(dòng)駕駛汽車決策的可行方法。
2.4 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)（RL）是一個(gè)通過(guò)反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)的領(lǐng)域。深度Q網(wǎng)絡(luò)（DQN）在Atari 2600基準(zhǔn)上實(shí)現(xiàn)人類級(jí)別的控制的成功已經(jīng)普及了深度強(qiáng)化學(xué)習(xí)。DQN 訓(xùn)練一個(gè)稱為批評(píng)家（或 Q 網(wǎng)絡(luò)）的神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)將當(dāng)前狀態(tài)和操作作為輸入，并預(yù)測(cè)該操作的貼現(xiàn)未來(lái)獎(jiǎng)勵(lì)（當(dāng)隨后遵循相同的策略時(shí)）。然后通過(guò)選擇具有最高 Q 值的操作來(lái)隱式定義策略。強(qiáng)化學(xué)習(xí)需要一個(gè)允許執(zhí)行潛在不安全操作的環(huán)境，因?yàn)樗枰剿鳎ɡ纾袝r(shí)在數(shù)據(jù)收集期間執(zhí)行隨機(jī)操作）。此外，強(qiáng)化學(xué)習(xí)比監(jiān)督學(xué)習(xí)需要更多的數(shù)據(jù)來(lái)訓(xùn)練。因此，現(xiàn)代強(qiáng)化學(xué)習(xí)方法通常會(huì)跨多個(gè)環(huán)境并行數(shù)據(jù)收集。在現(xiàn)實(shí)汽車中滿足這些要求提出了巨大的挑戰(zhàn)。因此，幾乎所有在自動(dòng)駕駛中使用強(qiáng)化學(xué)習(xí)的論文都只研究了仿真技術(shù)。
實(shí)際上，強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相結(jié)合已成功應(yīng)用于自動(dòng)駕駛。隱式可供性、GRI都使用監(jiān)督學(xué)習(xí)、語(yǔ)義分割和分類等輔助任務(wù)來(lái)預(yù)訓(xùn)練其架構(gòu)的 CNN 編碼器部分。在第二階段，預(yù)訓(xùn)練的編碼器被凍結(jié)，并使用現(xiàn)代版本的 Q 學(xué)習(xí)對(duì)凍結(jié)圖像編碼器的隱式可供性進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)也已成功用于微調(diào) CARLA 上的完整架構(gòu)，這些架構(gòu)是使用模仿學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練的。
強(qiáng)化學(xué)習(xí)還被有效地應(yīng)用于網(wǎng)絡(luò)可以訪問(wèn)特權(quán)模擬器信息的規(guī)劃或控制任務(wù)。本著同樣的精神，強(qiáng)化學(xué)習(xí)已應(yīng)用于自動(dòng)駕駛的數(shù)據(jù)集管理。Roach在特權(quán) BEV 語(yǔ)義分割上訓(xùn)練 RL 方法，并使用該策略自動(dòng)收集用于訓(xùn)練下游模仿學(xué)習(xí)代理的數(shù)據(jù)集。WoR 采用 Q 函數(shù)和表格動(dòng)態(tài)規(guī)劃來(lái)為靜態(tài)數(shù)據(jù)集生成附加或改進(jìn)的標(biāo)簽。
該領(lǐng)域未來(lái)的挑戰(zhàn)是將模擬結(jié)果轉(zhuǎn)移到現(xiàn)實(shí)世界。在強(qiáng)化學(xué)習(xí)中，目標(biāo)被表示為獎(jiǎng)勵(lì)函數(shù)，大多數(shù)算法要求這些獎(jiǎng)勵(lì)函數(shù)是密集的，并在每個(gè)環(huán)境步驟提供反饋。當(dāng)前的工作通常使用簡(jiǎn)單的目標(biāo)，例如進(jìn)度和避免碰撞，并將它們線性組合。這些簡(jiǎn)單化的獎(jiǎng)勵(lì)函數(shù)因鼓勵(lì)冒險(xiǎn)行為而受到批評(píng)。設(shè)計(jì)或?qū)W習(xí)更好的獎(jiǎng)勵(lì)函數(shù)仍然是一個(gè)懸而未決的問(wèn)題。另一個(gè)方向是開(kāi)發(fā)可以處理稀疏獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法，從而直接優(yōu)化相關(guān)指標(biāo)。強(qiáng)化學(xué)習(xí)可以與世界模型有效結(jié)合，當(dāng)前自動(dòng)駕駛的 RL 解決方案嚴(yán)重依賴于場(chǎng)景的低維表示。
強(qiáng)化學(xué)習(xí)已經(jīng)證明了在空蕩蕩的街道上的真車上成功學(xué)習(xí)車道跟隨。盡管早期結(jié)果令人鼓舞，但必須指出的是，三十年前就已經(jīng)通過(guò)模仿學(xué)習(xí)完成了類似的任務(wù)。迄今為止，還沒(méi)有報(bào)告顯示強(qiáng)化學(xué)習(xí)端到端訓(xùn)練的結(jié)果可以與模仿學(xué)習(xí)相媲美。在與 CARLA 模擬器發(fā)布一起進(jìn)行的直接比較中，強(qiáng)化學(xué)習(xí)遠(yuǎn)遠(yuǎn)落后于模塊化Pipeline和端到端模仿學(xué)習(xí)。這種失敗的原因很可能是通過(guò)強(qiáng)化學(xué)習(xí)獲得的梯度不足以訓(xùn)練駕駛所需的深度感知架構(gòu)（ResNet 規(guī)模）。RL取得成功的 Atari 等基準(zhǔn)測(cè)試中使用的模型相對(duì)較淺，僅由幾個(gè)層組成。
3、標(biāo)桿管理

自動(dòng)駕駛系統(tǒng)需要對(duì)其可靠性進(jìn)行全面評(píng)估以確保安全。為了實(shí)現(xiàn)這一目標(biāo)，研究人員必須使用適當(dāng)?shù)臄?shù)據(jù)集、模擬器和指標(biāo)對(duì)這些系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試。端到端自動(dòng)駕駛系統(tǒng)大規(guī)模基準(zhǔn)測(cè)試有兩種方法：

（1）模擬中的在線或閉環(huán)評(píng)估；

（2）人類駕駛數(shù)據(jù)集的離線或開(kāi)環(huán)評(píng)估。其中需要特別關(guān)注更有原則性的在線設(shè)置，并提供離線評(píng)估的簡(jiǎn)要總結(jié)以確保完整性。

4、挑戰(zhàn)
對(duì)于圖 1 中所示的每個(gè)主題/問(wèn)題，我們現(xiàn)在討論相關(guān)工作、當(dāng)前挑戰(zhàn)以及有希望的未來(lái)趨勢(shì)和機(jī)遇。我們先基于處理不同輸入方式和公式相關(guān)的挑戰(zhàn)開(kāi)始。然后是關(guān)于高效政策學(xué)習(xí)的視覺(jué)抽象的討論。此外，我們還介紹了學(xué)習(xí)范式，例如世界模型學(xué)習(xí)、多任務(wù)框架和策略蒸餾。最后，我們討論阻礙安全可靠的端到端自動(dòng)駕駛的一般問(wèn)題，包括可解釋性、因果混亂、穩(wěn)健性和普遍性。
不同的模式具有不同的特征，因此，需要有效融合它們并關(guān)注行動(dòng)關(guān)鍵特征的挑戰(zhàn)。這里我們以點(diǎn)云和圖像為例來(lái)描述各種融合策略。

圖3：輸入模式和融合策略的示例

4.1 輸入方式
4.1.1多傳感器融合
盡管早期的工作成功實(shí)現(xiàn)了簡(jiǎn)單的自動(dòng)駕駛?cè)蝿?wù)，例如使用單目攝像頭進(jìn)行車道跟蹤，但這種單一輸入模式不足以處理復(fù)雜的場(chǎng)景。因此，最近的自動(dòng)駕駛汽車上引入并配備了各種傳感器，如圖4所示。
特別是，來(lái)自攝像頭的RGB圖像自然地復(fù)制了人類如何感知世界，具有豐富的語(yǔ)義視覺(jué)信息；LiDAR 或立體相機(jī)提供準(zhǔn)確的 3D 空間知識(shí)。此外，車速表和 IMU 的速度和加速度等車輛狀態(tài)以及高級(jí)導(dǎo)航命令是指導(dǎo)端到端系統(tǒng)的其他輸入線。然而，各種傳感器具有不同的視角和數(shù)據(jù)分布，它們之間的巨大差距給自動(dòng)駕駛的有效融合、互補(bǔ)帶來(lái)了巨大挑戰(zhàn)。
多傳感器融合主要在感知相關(guān)領(lǐng)域進(jìn)行討論，例如物體檢測(cè)、跟蹤和語(yǔ)義分割，通常分為三類：早期、中、后期融合。端到端自動(dòng)駕駛算法探索類似的融合方案。早期融合意味著在將感知信息輸入特征提取器之前對(duì)其進(jìn)行組合。串聯(lián)是融合各種輸入的常用方法，例如圖像和深度、BEV點(diǎn)云和高清地圖等，然后使用共享特征提取器對(duì)其進(jìn)行處理。還有在 BEV 上繪制與透視圖像相同大小的 LiDAR 點(diǎn)，并將它們組合作為輸入。為了解決視圖差異，一些工作嘗試在 2D 圖像上投影點(diǎn)云或通過(guò)提前預(yù)測(cè)圖像的語(yǔ)義標(biāo)簽為每個(gè) LiDAR 點(diǎn)附加一個(gè)附加通道。另一方面，后期融合方案結(jié)合了多模態(tài)的多個(gè)結(jié)果。由于其性能較差，因此討論較少。
與這些方法相反，中間融合通過(guò)單獨(dú)編碼輸入，然后在特征級(jí)別將它們組合來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)的多傳感器融合。通用串聯(lián)模式也經(jīng)常被用來(lái)融合來(lái)自不同模態(tài)的特征。最近，有研究采用 Transformers來(lái)模擬特征對(duì)之間的交互。Transfuser使用兩個(gè)獨(dú)立的卷積編碼器處理圖像和 LiDAR 輸入，將每個(gè)分辨率的特征與 Transformer 編碼器互連，從而產(chǎn)生四階段特征融合。自注意力層用于傳感器Token令牌，關(guān)注感興趣的區(qū)域并更新來(lái)自其他模式的信息。MMFN 進(jìn)一步在 Transfurser 之上整合了 OpenDrive 地圖和雷達(dá)輸入。采用單級(jí) Transformer 編碼器架構(gòu)來(lái)融合最后一個(gè)編碼器塊之后的各種特征。注意力機(jī)制在聚合不同傳感器輸入的上下文和實(shí)現(xiàn)更安全的端到端駕駛性能方面表現(xiàn)出了巨大的有效性。
4.1.2語(yǔ)言輸入自動(dòng)駕駛系統(tǒng)
人類使用視覺(jué)感知和內(nèi)在知識(shí)（例如交通規(guī)則和所需路線）來(lái)駕駛汽車，它們共同形成因果行為。在一些與自動(dòng)駕駛相關(guān)的領(lǐng)域，例如機(jī)器人和室內(nèi)導(dǎo)航（也稱為嵌入式人工智能），將自然語(yǔ)言作為細(xì)粒度指令來(lái)控制視覺(jué)運(yùn)動(dòng)代理已取得顯著進(jìn)展。

然而，室外自動(dòng)駕駛?cè)蝿?wù)與室內(nèi)機(jī)器人應(yīng)用相比，在以下情況下具有不同的特點(diǎn)：

（1）室外環(huán)境未知，車輛無(wú)法來(lái)回探索。

（2）鮮明的錨點(diǎn)標(biāo)志很少，給語(yǔ)言指令的落地帶來(lái)了巨大的挑戰(zhàn)。

（3）駕駛場(chǎng)景更加復(fù)雜，具有連續(xù)的動(dòng)作空間和高度動(dòng)態(tài)的代理。

操縱過(guò)程中，安全是重中之重。為了將語(yǔ)言知識(shí)融入到駕駛行為中，Talk2Car數(shù)據(jù)集提供了在室外環(huán)境中定位參考對(duì)象的基準(zhǔn)。Talk2Nav、TouchDown和 Map2Seq數(shù)據(jù)集引入了使用 Google 街景的視覺(jué)語(yǔ)言導(dǎo)航任務(wù)。將世界建模為離散連接圖，并需要以節(jié)點(diǎn)選擇格式導(dǎo)航到目標(biāo)。HAD首先采用人對(duì)車的建議，并使用基于 LSTM 的控制器添加視覺(jué)接地任務(wù)。將自然語(yǔ)言指令編碼為高級(jí)行為，包括左轉(zhuǎn)、右轉(zhuǎn)、不左轉(zhuǎn)等，并在 CARLA 模擬器中驗(yàn)證他們的語(yǔ)言引導(dǎo)導(dǎo)航方法。后面，相關(guān)研究又通過(guò)關(guān)注文本動(dòng)作命令來(lái)解決低級(jí)實(shí)時(shí)控制問(wèn)題。最近，CLIP-MC和 LM-Nav 利用 CLIP，受益于大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練，從指令中提取語(yǔ)言知識(shí)，從圖像中提取視覺(jué)特征。它們展示了預(yù)訓(xùn)練模型的優(yōu)勢(shì)，并為使用多模態(tài)模型解決復(fù)雜的導(dǎo)航任務(wù)提供了一個(gè)有吸引力的原型。
不同的模式通常會(huì)帶來(lái)更大的視野和感知準(zhǔn)確性，但融合它們來(lái)提取端到端自動(dòng)駕駛的關(guān)鍵信息還需要進(jìn)一步探索。必須在統(tǒng)一空間（例如 BEV）中對(duì)這些模式進(jìn)行建模，識(shí)別與政策相關(guān)的背景，并丟棄不相關(guān)的感知信息。此外，充分利用強(qiáng)大的 Transformer 架構(gòu)仍然是一個(gè)挑戰(zhàn)。自注意力層將所有令牌互連以自由建模其感興趣的領(lǐng)域，但它會(huì)產(chǎn)生大量的計(jì)算成本，并且不能保證有用的信息提取。感知領(lǐng)域更先進(jìn)的基于 Transformer 的多傳感器融合機(jī)制，也在逐步應(yīng)用于端到端駕駛?cè)蝿?wù)。
4.2 視覺(jué)抽象
端到端自動(dòng)駕駛系統(tǒng)大致分兩個(gè)階段實(shí)現(xiàn)操縱任務(wù)：將狀態(tài)空間編碼為潛在特征表示，然后用中間特征解碼駕駛策略。在城市駕駛的情況下，輸入狀態(tài)，即周圍環(huán)境和自我狀態(tài)，與視頻游戲等常見(jiàn)的政策學(xué)習(xí)基準(zhǔn)相比更加多樣化和高維。因此，首先使用代理預(yù)訓(xùn)練任務(wù)來(lái)預(yù)訓(xùn)練網(wǎng)絡(luò)的視覺(jué)編碼器是有幫助的。這使得網(wǎng)絡(luò)能夠有效地提取對(duì)駕駛有用的信息，從而促進(jìn)后續(xù)的策略解碼階段，同時(shí)滿足所有端到端算法的內(nèi)存和模型大小限制。此外，這可以提高 RL 方法的樣本效率。
視覺(jué)抽象或表示學(xué)習(xí)的過(guò)程通常包含某些歸納偏差或先驗(yàn)信息。為了實(shí)現(xiàn)比原始圖像更緊湊的表示，一些方法直接利用預(yù)訓(xùn)練分割網(wǎng)絡(luò)中的語(yǔ)義分割掩模作為后續(xù)策略訓(xùn)練的輸入表示。SESR更進(jìn)一步，通過(guò) VAE 將分割掩碼編碼為類解纏結(jié)表示。另外，預(yù)測(cè)的可供性指標(biāo)，例如交通燈狀態(tài)、速度、車道中心偏移、危險(xiǎn)指標(biāo)和與領(lǐng)先車輛的距離，被用作策略學(xué)習(xí)的表示。
在觀察到分割或可供性作為表示可能會(huì)造成人類定義的瓶頸并導(dǎo)致有用信息的丟失后，一些人選擇了預(yù)訓(xùn)練任務(wù)中的中間潛在特征作為有效的表示。ImageNet預(yù)訓(xùn)練模型的早期層可以作為有效的表示。采用通過(guò)語(yǔ)義分割和/或可供性預(yù)測(cè)等任務(wù)預(yù)先訓(xùn)練的潛在表示作為強(qiáng)化學(xué)習(xí)訓(xùn)練的輸入，并取得優(yōu)異的性能。比如，有在VAE中的潛在特征通過(guò)從分割的擴(kuò)散邊界和深度圖獲得的注意力圖來(lái)增強(qiáng)，以突出重要區(qū)域。或者通過(guò)運(yùn)動(dòng)預(yù)測(cè)和深度估計(jì)以自我監(jiān)督的方式在未標(biāo)記的駕駛視頻上學(xué)習(xí)有效的表示。也有利用一系列先前任務(wù)的數(shù)據(jù)來(lái)執(zhí)行與任務(wù)相關(guān)的不同預(yù)測(cè)任務(wù)，以獲得有用的表示。同時(shí)，潛在表示是通過(guò)近似來(lái)學(xué)習(xí)互模擬度量，由動(dòng)態(tài)模型的獎(jiǎng)勵(lì)和輸出的差異組成。除了這些帶有監(jiān)督預(yù)測(cè)的預(yù)訓(xùn)練任務(wù)之外，還采用了基于增強(qiáng)視圖的無(wú)監(jiān)督對(duì)比學(xué)習(xí)。進(jìn)一步將轉(zhuǎn)向角辨別添加到對(duì)比學(xué)習(xí)結(jié)構(gòu)中。
由于當(dāng)前的方法主要依賴于人類定義的預(yù)訓(xùn)練任務(wù)，因此學(xué)習(xí)到的表示不可避免地存在可能的信息瓶頸，并且可能包含與駕駛決策無(wú)關(guān)的冗余信息。因此，如何在表示學(xué)習(xí)過(guò)程中更好地提取驅(qū)動(dòng)政策的關(guān)鍵信息仍然是一個(gè)懸而未決的問(wèn)題。
4.3 世界模型和基于模型的強(qiáng)化學(xué)習(xí)
除了更好地抽象感知表示的能力之外，端到端模型對(duì)未來(lái)做出合理的預(yù)測(cè)以采取安全的操作也至關(guān)重要。在本節(jié)中，我們主要討論當(dāng)前基于模型的政策學(xué)習(xí)工作的挑戰(zhàn)，其中世界模型為政策模型提供了明確的未來(lái)預(yù)測(cè)。
深度強(qiáng)化學(xué)習(xí)通常會(huì)面臨樣本復(fù)雜度高的挑戰(zhàn)，這對(duì)于自動(dòng)駕駛等任務(wù)來(lái)說(shuō)尤其明顯，因?yàn)闃颖究臻g很大。基于模型的強(qiáng)化學(xué)習(xí)（MBRL）通過(guò)允許代理與學(xué)習(xí)的世界模型而不是實(shí)際環(huán)境進(jìn)行交互，為提高樣本效率提供了一個(gè)有前途的方向。MBRL方法顯式地對(duì)世界模型/環(huán)境模型進(jìn)行建模，該模型由過(guò)渡動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)組成，并且代理可以以較低的成本與之交互。這對(duì)于自動(dòng)駕駛特別有幫助，因?yàn)橄?CARLA 這樣的 3D 模擬器相對(duì)較慢。
對(duì)高度復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境進(jìn)行建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了簡(jiǎn)化問(wèn)題，假設(shè)世界是在軌道上的，將過(guò)渡動(dòng)力學(xué)分解為非反應(yīng)性世界模型和自車的簡(jiǎn)單運(yùn)動(dòng)學(xué)自行車模型。利用分解世界模型和獎(jiǎng)勵(lì)函數(shù)來(lái)豐富靜態(tài)數(shù)據(jù)集的標(biāo)簽，通過(guò)動(dòng)態(tài)編程優(yōu)化更好的標(biāo)簽。概率序列潛在模型被用作世界模型來(lái)降低強(qiáng)化學(xué)習(xí)的樣本復(fù)雜性。為了解決學(xué)習(xí)世界模型潛在的不準(zhǔn)確性問(wèn)題，使用多個(gè)世界模型的集合來(lái)提供不確定性評(píng)估。基于不確定性，世界模型和政策代理之間的想象推出可以相應(yīng)地被截?cái)嗪驼{(diào)整。受成功的 MBRL 模型 Dreamer的啟發(fā)，ISO-Dream考慮環(huán)境中的非確定性因素，并將視覺(jué)動(dòng)態(tài)解耦為可控和不可控狀態(tài)。然后，策略在分離狀態(tài)上進(jìn)行訓(xùn)練，明確考慮不可控因素（例如其他智能體的運(yùn)動(dòng)）。
在原始圖像空間中學(xué)習(xí)世界模型并不適合自動(dòng)駕駛。預(yù)測(cè)圖像中很容易錯(cuò)過(guò)重要的小細(xì)節(jié)，例如交通信號(hào)燈。為了解決這個(gè)問(wèn)題，MILE將世界模型合并到 BEV 語(yǔ)義分割空間中。它將世界建模與模仿學(xué)習(xí)結(jié)合起來(lái)，采用Dreamer式的世界模型學(xué)習(xí)作為輔助任務(wù)。SEM2還擴(kuò)展了 Dreamer 結(jié)構(gòu)，但使用了 BEV 分割圖，并使用 RL 進(jìn)行訓(xùn)練。除了直接使用 MBRL 學(xué)習(xí)到的世界模型之外，DeRL 將無(wú)模型的行動(dòng)者評(píng)論家框架與世界模型結(jié)合起來(lái)。具體來(lái)說(shuō)，學(xué)習(xí)的世界模型提供了對(duì)當(dāng)前行為的自我評(píng)估，它與評(píng)論家的狀態(tài)值相結(jié)合，以更好地了解車輛的表現(xiàn)。
用于端到端自動(dòng)駕駛的世界模型學(xué)習(xí)（MBRL）是一個(gè)新興且有前途的方向，因?yàn)樗蟠蠼档土?RL 的樣本復(fù)雜性，并且了解世界有助于駕駛。然而，由于駕駛環(huán)境高度復(fù)雜和動(dòng)態(tài)，仍需要進(jìn)一步研究來(lái)確定需要建模的內(nèi)容以及如何有效地建模世界。
4.4 帶有策略預(yù)測(cè)的多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)（MTL）涉及通過(guò)單獨(dú)的分支/頭基于共享表示聯(lián)合執(zhí)行多個(gè)相關(guān)任務(wù)。MTL 通過(guò)使用單個(gè)模型執(zhí)行多個(gè)任務(wù)，顯著降低了計(jì)算成本。此外，相關(guān)領(lǐng)域知識(shí)在共享模型內(nèi)共享，并且可以更好地利用任務(wù)關(guān)系來(lái)提高模型的泛化能力和魯棒性。因此，MTL非常適合端到端的自動(dòng)駕駛，最終的政策預(yù)測(cè)需要對(duì)當(dāng)前環(huán)境進(jìn)行全面了解。
與需要密集預(yù)測(cè)的常見(jiàn)視覺(jué)任務(wù)相比，端到端自動(dòng)駕駛預(yù)測(cè)稀疏信號(hào)。這里的稀疏監(jiān)督給輸入編碼器提取有用信息以進(jìn)行決策帶來(lái)了挑戰(zhàn)。對(duì)于圖像輸入，端到端自動(dòng)駕駛模型中普遍采用語(yǔ)義分割和深度估計(jì)等輔助任務(wù)。語(yǔ)義分割確保模型獲得對(duì)場(chǎng)景的高層次理解并識(shí)別不同類別的物體；深度估計(jì)使模型能夠理解環(huán)境的 3D 幾何形狀，并更好地估計(jì)到關(guān)鍵物體的距離。通過(guò)執(zhí)行這些任務(wù)，圖像編碼器可以更好地提取有用且有意義的特征表示，以供后續(xù)規(guī)劃。除了透視圖像上的輔助任務(wù)之外，3D 對(duì)象檢測(cè)對(duì)于 LiDAR 編碼器也很有用。
隨著B(niǎo)EV 成為自動(dòng)駕駛的自然且流行的代表，高清地圖映射和 BEV 分割等任務(wù)被包含在聚合 BEV 空間特征的模型中。此外，除了這些多任務(wù)視覺(jué)任務(wù)之外，還有針對(duì)預(yù)測(cè)視覺(jué)可供性，包括交通燈狀態(tài)、到路口的距離以及到對(duì)面車道的距離等。
端到端自動(dòng)駕駛的多任務(wù)學(xué)習(xí)已證明其在提高性能和提供自動(dòng)駕駛模型的可解釋性方面的有效性。然而，輔助任務(wù)的最佳組合以及其損失的適當(dāng)權(quán)重以實(shí)現(xiàn)最佳性能仍有待探索。此外，構(gòu)建具有多種類型的對(duì)齊和高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集提出了重大挑戰(zhàn)。
4.5 政策蒸餾
由于模仿學(xué)習(xí)或其主要子類別行為克隆只是模仿專家行為的監(jiān)督學(xué)習(xí)，因此相應(yīng)的方法通常遵循“師生”范式。教師（例如 CARLA 提供的手工制作的專家自動(dòng)駕駛儀）可以訪問(wèn)周圍智能體和地圖元素的真實(shí)狀態(tài)，而學(xué)生則通過(guò)收集的專家軌跡或僅使用原始傳感器輸入的控制信號(hào)來(lái)直接監(jiān)督。這給學(xué)生模型帶來(lái)了巨大的挑戰(zhàn)，因?yàn)樗麄儾粌H必須提取感知特征，還必須從頭開(kāi)始學(xué)習(xí)駕駛策略。
為了解決上述困難，一些研究提出將學(xué)習(xí)過(guò)程分為兩個(gè)階段，即訓(xùn)練教師網(wǎng)絡(luò)，然后將策略提煉為最終的學(xué)生網(wǎng)絡(luò)。特別是，首先使用特權(quán)代理來(lái)學(xué)習(xí)如何直接訪問(wèn)環(huán)境狀態(tài)。然后，他們讓感覺(jué)運(yùn)動(dòng)代理（學(xué)生網(wǎng)絡(luò)）密切模仿特權(quán)代理，并在輸出階段進(jìn)行蒸餾。通過(guò)更緊湊的 BEV 表示作為特權(quán)代理的輸入，它提供了比原始專家更強(qiáng)的泛化能力和監(jiān)督。該過(guò)程如圖 5 所示。LAV進(jìn)一步賦予特權(quán)代理預(yù)測(cè)所有附近車輛軌跡的能力，并將這種能力提煉給使用視覺(jué)特征的學(xué)生網(wǎng)絡(luò)。

圖 4：政策蒸餾（a）特權(quán)代理通過(guò)訪問(wèn)特權(quán)真實(shí)信息來(lái)學(xué)習(xí)穩(wěn)健的策略。專家用虛線標(biāo)記，表明如果特權(quán)代理通過(guò) RL 進(jìn)行訓(xùn)練，則不是強(qiáng)制性的。(b) 感覺(jué)運(yùn)動(dòng)智能體通過(guò)特征蒸餾和輸出模仿來(lái)模仿特權(quán)智能體。

除了直接監(jiān)督規(guī)劃結(jié)果之外，一些工作還通過(guò)在特征級(jí)別提取知識(shí)來(lái)訓(xùn)練其預(yù)測(cè)模型。例如，F(xiàn)M-Net采用現(xiàn)成的網(wǎng)絡(luò)，包括分割和光流模型，作為輔助教師來(lái)指導(dǎo)特征訓(xùn)練。盡管人們付出了大量的努力來(lái)設(shè)計(jì)更強(qiáng)大的專家并將知識(shí)從教師傳授給不同級(jí)別的學(xué)生，但師生范式仍然存在提煉效率低下的問(wèn)題。正如之前的所有作品所示，視覺(jué)運(yùn)動(dòng)網(wǎng)絡(luò)與其特權(quán)代理相比表現(xiàn)出巨大的性能差距。例如，特權(quán)代理可以訪問(wèn)交通信號(hào)燈的真實(shí)狀態(tài)，它們是圖像中的小物體，對(duì)提取相應(yīng)特征提出了挑戰(zhàn)，這可能會(huì)導(dǎo)致學(xué)生的因果混亂。因此，如何從機(jī)器學(xué)習(xí)中的通用蒸餾方法中汲取更多靈感來(lái)縮小差距是值得探索的。

總結(jié)

我們首先討論端到端自動(dòng)駕駛系統(tǒng)的動(dòng)機(jī)和路線圖。端到端方法可以大致分為模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，我們對(duì)這些方法進(jìn)行了簡(jiǎn)要回顧。我們涵蓋閉環(huán)和開(kāi)環(huán)評(píng)估的數(shù)據(jù)集和基準(zhǔn)。我們總結(jié)了一系列關(guān)鍵挑戰(zhàn)，包括可解釋性、泛化、世界模型、因果混亂等。后續(xù)文章我們將接續(xù)本文進(jìn)一步討論端到端自動(dòng)駕駛索要面臨的一系列挑戰(zhàn)。并重點(diǎn)分析其應(yīng)該接受的未來(lái)趨勢(shì)，幫助讀者可以有效的整合數(shù)據(jù)引擎、大型基礎(chǔ)模型和車輛到一切的最新發(fā)展。

上一篇：華為電子機(jī)械制動(dòng)（EMB）技術(shù)解析

下一篇：全面了解端到端自動(dòng)駕駛的研發(fā)現(xiàn)狀、挑戰(zhàn)與策略應(yīng)對(duì)（二）

全职猎人1999_日韩综合社区_久草播放_黄色a一级一级一级免费看_午夜在线视频一区二区三区_国产日韩精品SUV

全面帶你了解端到端大模型的底層邏輯（一）

資質(zhì)榮譽(yù)

公司事記

加入我們

聯(lián)系我們

馬上在線溝通：