端到端自動駕駛技術(shù)需要高算力資源、大量深度學(xué)習(xí)研發(fā)人員投入,在全球范圍內(nèi)的主要玩家如下:
1、主機(jī)廠
1.1特斯拉
特斯拉FSDv12 的優(yōu)秀表現(xiàn),是端到端自動駕駛這一技術(shù)路線快速形成大范圍共識的最重要的推動力;而在此之前,從來沒有一個(gè)自動駕駛產(chǎn)品可以讓從業(yè)者和用戶如此便捷地感受到技術(shù)帶來的體驗(yàn)提升。
2024 年3 月,特斯拉開始在北美地區(qū)大范圍推送FSD v12,輿論對其性能的正面評價(jià)占據(jù)了主流。許多用戶表示,特斯拉FSD v12 在施工路段、無保護(hù)左轉(zhuǎn)、擁擠的環(huán)島以及為后方車輛挪動空間時(shí)表現(xiàn)優(yōu)異。
數(shù)據(jù)來自Tesla FSD Tracker
由第三方網(wǎng)站 FSD Tracker 統(tǒng)計(jì)的特斯拉車輛接管里程數(shù)據(jù)也表明了FSD v12 的巨大性能提升。在此前很長一段時(shí)間,F(xiàn)SD 的版本迭代處于瓶頸期,自2022 年初FSD v10 更新以來,其接管里程數(shù)據(jù)保持在穩(wěn)態(tài)波動,行業(yè)普遍認(rèn)為這是傳統(tǒng)架構(gòu)的工程優(yōu)化陷入瓶頸的表現(xiàn);但FSD v12 更新后,較之此前版本,用戶完全無接管的行程次數(shù)占比從47% 提升到了72%,平均接管里程(Miles Per Intervention, MPI)從116 英里提高到了333 英里,性能的大幅提升代表著端到端技術(shù)突破了原有的技術(shù)瓶頸,推動自動駕駛系統(tǒng)的能力再上臺階。作為自動駕駛行業(yè)最重要的標(biāo)桿企業(yè)之一,特斯拉的技術(shù)路線一直備受關(guān)注。從Elon Musk 在2023 年5 月首次公開提出“ 特斯拉FSD v12 是一個(gè)端到端AI”,到2024 年3 月特斯拉開始大范圍推送v12,特斯拉端到端技術(shù)不斷演進(jìn)和成熟的過程,也是中國自動駕駛行業(yè)逐漸凝聚共識的過程。很多業(yè)內(nèi)專家表示,公司下決心投入端到端自動駕駛,與特斯拉的進(jìn)展密不可分。
1.2 理想
2024年7月5日,理想汽車發(fā)布了行業(yè)首個(gè)基于端到端模型、VLM 視覺語言模型和世界模型的全新自動駕駛技術(shù)架構(gòu)。
1.3 小鵬
小鵬汽車的端到端架構(gòu)是兩段式架構(gòu)。小鵬之前智駕系統(tǒng)的規(guī)則是十萬(行代碼)級規(guī)模,最新發(fā)布的端到端大模型能夠?qū)崿F(xiàn)10億行代碼才能達(dá)到的性能天花板,甚至更強(qiáng)。同時(shí)XNGP的端到端系統(tǒng)內(nèi),仍有部分的規(guī)則代碼作為安全兜底。
此次小鵬量產(chǎn)上車的端到端大模型包括:感知神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語言模型XBrain。
從結(jié)構(gòu)來看,小鵬的端到端架構(gòu)仍分為感知、規(guī)控兩大功能模塊,其中最大的變化應(yīng)該在于將過去基本完全由規(guī)則組成的規(guī)控模塊,切換為神經(jīng)網(wǎng)絡(luò)為主。其中XNet:側(cè)重于感知和語義,實(shí)現(xiàn)了動、靜態(tài)BEV網(wǎng)絡(luò)和占用網(wǎng)絡(luò)的三網(wǎng)合一,其中占用網(wǎng)絡(luò)的空間網(wǎng)格超200萬個(gè)。小鵬官方表示,其網(wǎng)格精度為業(yè)內(nèi)最高精度的2倍以上。三網(wǎng)合一后,XNet的感知范圍提升2倍,達(dá)到1.8個(gè)足球場大小,對懸掛路牌、井蓋、掉落紙箱等非標(biāo)準(zhǔn)障礙物識別能力提升至50+。XPlanner:通過模型取代代碼后,規(guī)控表現(xiàn)將更加擬人,前后頓挫減少50%、違?ㄋ罍p少40%、安全接管減少60%;XBrain:XBrain 側(cè)重于整個(gè)大場景的認(rèn)知,通過大語言模型所具備的常識能力,提升感知和規(guī)控的推理和泛化能力?勺x懂任何中英文文字,掌握各種令行禁止、快慢緩急的行為指令。
對于神經(jīng)網(wǎng)絡(luò)的不可解釋性問題,小鵬汽車自動駕駛中心負(fù)責(zé)人李力耘表示,在端到端的架構(gòu)下,三個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練標(biāo)注,形成有一個(gè)有機(jī)整體。
2、科技公司
2.1Wayve
英國自動駕駛初創(chuàng)公司W(wǎng)ayve在當(dāng)?shù)貢r(shí)間2024年5月7日表示,已完成10.5億美元的融資。其中軟銀集團(tuán)(SoftBank Group)、英偉達(dá)(NVIDIA)和微軟(Microsoft)參與了Wayve的C輪融資。
Wayve利用多模態(tài)大模型生成數(shù)據(jù)賦能端到端。Wayve的端到端方案,引入了多模態(tài)大模型GAIA-1(“自主生成AI”),一種生成世界模型。它利用視頻、文本和動作輸入來生成逼真的駕駛場景,同時(shí)提供對車輛行為和場景特征的顆粒度控制。具體而言,將世界建模視為一個(gè)無監(jiān)督序列建模問題,通過將輸入映射到離散標(biāo)記,并預(yù)測序列中的下一個(gè)標(biāo)記。模型中出現(xiàn)的特性包括學(xué)習(xí)高級結(jié)構(gòu)和場景動態(tài)、上下文意識、泛化和對幾何的理解。 GAIA-1的學(xué)習(xí)表征能力捕獲了對未來事件的預(yù)測,結(jié)合其生成真實(shí)樣本的能力,增強(qiáng)和加速了自動駕駛技術(shù)的訓(xùn)練。GAIA-1允許視頻、文本和動作作為提示來生成多樣化和逼真的駕駛場景。Wayve通過在真實(shí)世界的英國城市駕駛數(shù)據(jù)的大型語料庫上進(jìn)行訓(xùn)練GAIA-1,其學(xué)會理解和理清重要的概念,如靜態(tài)和動態(tài)元素,包括汽車、公共汽車、行人、騎自行車的人、道路布局、建筑物,甚至交通燈。此外,它還通過動作和語言條件反射提供了對自我車輛行為和其他場景特征的細(xì)粒度控制。下圖是GAIA-1多模態(tài)視頻生成。
Wayve的訓(xùn)練數(shù)據(jù)集包含 2019-2023年間在英國倫敦收集的4,700小時(shí)、25Hz的專有駕駛數(shù)據(jù)。這對應(yīng)于大約4.2億張獨(dú)特圖像,這是一個(gè)海量的圖片數(shù)據(jù),但對視頻數(shù)據(jù)而言還是微不足道。但Wayve的智駕方案核心在于它可以自己生成海量的近似人工標(biāo)注的視頻數(shù)據(jù)且成本極低,這些數(shù)據(jù)可以模擬各種近乎真實(shí)的場景,然后用這些數(shù)據(jù)進(jìn)行端到端訓(xùn)練。
雖然Tesla的影子模式也可以獲得海量的低成本近似于人工標(biāo)注的視頻數(shù)據(jù),但實(shí)際上并非如此,馬斯克在最近的訪談也稱所謂影子模式拿到的圖像(不是視頻)有用的不到萬分之一。
2.2 華為
2024 年4 月24 日,華為智能汽車解決方案發(fā)布會上,華為發(fā)布了以智能駕駛為核心的全新智能汽車解決方案品牌—— 乾崑,并發(fā)布了并發(fā)布了ADS 3.0。乾崑ADS 3.0 的技術(shù)架構(gòu),感知部分采用GOD(General Object Detection,通用障礙物識別)的大感知網(wǎng)絡(luò),決策規(guī)劃部分采用PDP(Prediction-Decision-Planning, 預(yù)測決策規(guī)控)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)決策和規(guī)劃一張網(wǎng)。華為乾崑ADS3.0端到端是基于少量人工規(guī)則+端到端模型,并逐漸減少人工規(guī)則的數(shù)量。
乾崑ADS3.0主要包括GOD和PDP。華為的ADS是從感知BEV(鳥瞰圖)網(wǎng)絡(luò)開始的,可識別白名單障礙物;2023年4月發(fā)布最新的ADS3.0,引入GOD(通用障礙物檢測)和PCR(道路拓?fù)渫评恚┚W(wǎng)絡(luò),現(xiàn)在開始進(jìn)入場景理解階段,構(gòu)成了GOD大網(wǎng)。
GOD(通用障礙物識別)大網(wǎng):乾崑ADS3.0基于GOD大網(wǎng),實(shí)現(xiàn)了從簡單的“識別障礙物”到深度的“理解駕駛場景”的跨越式進(jìn)步。這不僅提升了智能駕駛的安全性,還改善了駕乘體驗(yàn)。
PDP(預(yù)測決策規(guī)控)網(wǎng)絡(luò):乾崑ADS3.0的全新架構(gòu)采用PDP網(wǎng)絡(luò),實(shí)現(xiàn)了預(yù)決策和規(guī)劃一張網(wǎng)。這使得決策和規(guī)劃更加類人化,行駛軌跡更接近人類駕駛,通行效率更高。復(fù)雜路口通過率超過96%。
2.3百度
2024年5月15日,百度Apollo發(fā)布了支持L4級自動駕駛的大模型ApolloADFM(AutonomousDrivingFoundationModel)。百度的端到端架構(gòu)屬于兩段式端到端,感知和決策規(guī)劃有兩段網(wǎng)絡(luò),后續(xù)通過隱形傳遞和聯(lián)合訓(xùn)練實(shí)現(xiàn)端到端無人駕駛。
在感知端,通過攝像頭得到視覺圖像數(shù)據(jù),并通過激光雷達(dá)和4D毫米波雷達(dá)得到主動光傳感器數(shù)據(jù)。之后利用感知網(wǎng)絡(luò)對視覺和主動光特征進(jìn)行識別,融合BEV特征判斷道路特征、障礙物等。再通過顯式三維向量空間(使用三維坐標(biāo)系來精確地表示物體的位置和方向)和隱式BEV特征(在BEV視角下,不直接給出三維空間中的所有信息,而是通過一些間接的方式,如特征編碼或者深度學(xué)習(xí)模型來隱式地表示和推斷這些信息),以聯(lián)合訓(xùn)練的方式實(shí)現(xiàn)端到端無人駕駛。
2.3 地平線
地平線早在2016 年便率先提出了自動駕駛端到端的演進(jìn)理念,并持續(xù)取得技術(shù)創(chuàng)新與突破:在2022 年提出行業(yè)領(lǐng)先的自動駕駛感知端到端算法Sparse4D; 同時(shí),地平線積累了基于交互博弈的端到端深度學(xué)習(xí)算法,大幅提升智駕系統(tǒng)在復(fù)雜交通環(huán)境中的通過率、安全性和舒適度。在硬件技術(shù)上,地平線專為大參數(shù)Transformer 而生的新一代智能計(jì)算架構(gòu)BPU 納什,能夠以高度的軟硬協(xié)同打造業(yè)界領(lǐng)先的計(jì)算效率,為自動駕駛端到端和交互博弈提供智能計(jì)算最優(yōu)解。
2.4英偉達(dá)
作為AI 生態(tài)賦能者,英偉達(dá)可以提供從芯片、工具鏈到智駕解決方案的全棧產(chǎn)品,將AI 領(lǐng)域最前端的技術(shù)賦能至智駕。2023 年夏季,吳新宙加盟英偉達(dá)成為汽車業(yè)務(wù)負(fù)責(zé)人。此后,英偉達(dá)加大對智駕業(yè)務(wù)的投入,強(qiáng)化英偉達(dá)對于自身全棧軟硬件方案提供商的定義。
2024 北京車展前夕, 吳新宙展示了英偉達(dá)自動駕駛業(yè)務(wù)從L2 到L3 的發(fā)展規(guī)劃,其中提到規(guī)劃的第二步為“ 在L2++ 系統(tǒng)上達(dá)成新突破,LLM(LargeLanguage Model,大語言模型)和VLM(Visual Language Model,視覺語言模型)大模型上車,實(shí)現(xiàn)端到端的自動駕駛”。吳新宙認(rèn)為,端到端是自動駕駛的最終一步,接下來幾年端到端模型和原有模型會在自動駕駛中相輔相成,端到端模型提供更擬人且靈活的處理,而原來的模型和方法則可以保證安全性。
2.5商湯
2024年4月25日,商湯絕影在北京車展發(fā)布面向量產(chǎn)的端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)。商湯的端到端架構(gòu)實(shí)現(xiàn)了感知到規(guī)劃,而國內(nèi)其他很多廠商說的是感知到融合。
搭載UniAD端到端自動駕駛解決方案的車輛僅憑攝像頭的視覺感知,無需高精地圖,通過數(shù)據(jù)學(xué)習(xí)和驅(qū)動就可以像人一樣觀察并理解外部環(huán)境,然后基于足夠豐富的感知信息,UniAD能夠自己思考并作出決策,例如進(jìn)行無保護(hù)左轉(zhuǎn)、快速通行人車混行的紅綠燈路口、完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。
UniAD的核心是將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現(xiàn)感知決策一體化,不需要對感知數(shù)據(jù)進(jìn)行抽象和逐級傳遞,,將原始信息直接輸入到端到端模型中,然后以自車軌跡規(guī)劃為準(zhǔn)進(jìn)行指令輸出,實(shí)現(xiàn)端到端自動駕駛。UniAD的具體優(yōu)點(diǎn)如下:
首先,傳統(tǒng)智駕方案和“兩段式”端到端方案都是依靠人為定義的規(guī)則在傳遞顯性信息,存在信息誤差和丟失,難以完整準(zhǔn)確還原外部場景,而一體化端到端自動駕駛大模型最明顯的優(yōu)勢就在于信息的無損傳遞,端到端模型基于原始信息進(jìn)行學(xué)習(xí)、思考和推理,最終能像人一樣綜合理解復(fù)雜的交通環(huán)境,并且能夠不斷成長,有著更高的能力上限。
其次,依賴數(shù)據(jù)驅(qū)動的端到端方案能夠?qū)⑵鋵W(xué)到的駕駛能力和技巧遷移泛化到其他場景當(dāng)中,具備更快的迭代效率,幫助車企更快速實(shí)現(xiàn)全國都能開的目標(biāo),無論是城區(qū)還是鄉(xiāng)村道路。
最后,端到端自動駕駛大模型是像人一樣感知和理解外部環(huán)境,純視覺和無高精地圖就是UniAD與生俱來的天賦,它只需要導(dǎo)航信息就可以把車駕駛到目的地,天然就能幫助車企降低軟硬件成本。
Tesla的FSDV12等一體化端到端方案是基于一個(gè)不可解耦的模型打造,UniAD是將多個(gè)模塊整合到一個(gè)端到端模型架構(gòu)之下,仍可以對各個(gè)模塊進(jìn)行分別的監(jiān)測和優(yōu)化,相較于純黑盒的端到端技術(shù),UniAD方案具有更強(qiáng)的可解釋性、安全性與持續(xù)迭代性。
2.6 鑒智機(jī)器人
在2024 北京車展期間,鑒智機(jī)器人聯(lián)合創(chuàng)始人、CTO 都大龍表示,鑒智機(jī)器人原創(chuàng)的自動駕駛端到端模型GraphAD 已經(jīng)可量產(chǎn)部署,并正與頭部車企進(jìn)行聯(lián)合開發(fā)。在主流端到端開環(huán)規(guī)劃評測上,GraphAD 在各項(xiàng)任務(wù)上均達(dá)到領(lǐng)域最佳性能,規(guī)劃任務(wù)上擬合誤差和避障指標(biāo)更是遠(yuǎn)超此前的最佳方案。
談及端到端自動駕駛,都大龍說:“ 之所以將端到端范式稱為GraphAD,是因?yàn)殍b智使用了圖形結(jié)構(gòu)來顯示建模目標(biāo),包括動態(tài)和靜態(tài)障礙物之間的關(guān)系—— 這使得端到端模型訓(xùn)練起來更容易也進(jìn)一步減少對數(shù)據(jù)量的需求。” 都大龍指出,如果只使用積累下來的專用數(shù)據(jù),是無法做到快速上車的,而鑒智目前在做的,是將端到端與世界模型相結(jié)合。構(gòu)建生成式的仿真模型,使得Agent 不斷與仿真模型交互,以此將世界的規(guī)律和人類的知識遷移到Agent 里! 我們將真實(shí)世界的信息模擬壓縮成一個(gè)生成式模型,同時(shí)要不斷對其進(jìn)行幾個(gè)層面的優(yōu)化:真實(shí)度、可控度以及可交互度。其中,交互要無限逼近現(xiàn)實(shí)感!
3、開源實(shí)驗(yàn)室
3.1 上海人工智能實(shí)驗(yàn)室
上海人工智能實(shí)驗(yàn)室近年來為自動駕駛技術(shù)的發(fā)展做出了很大的貢獻(xiàn)。
2022 年,上海人工智能實(shí)驗(yàn)室開源了 BEVFormer 架構(gòu),時(shí)至今日依然是自動駕駛行業(yè)內(nèi)最通用的視覺感知算法架構(gòu)。2023 年6 月,上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合提出的端到端自動駕駛算法 UniAD,獲得 CVPR 2023最佳論文,是近十年來計(jì)算機(jī)視覺頂級會議中第一篇以中國學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。受到 BEVFormer 和 UniAD 的啟發(fā),自動駕駛行業(yè)在BEV 感知、端到端自動駕駛方面的研究大大加速。
近半年來,上海人工智能實(shí)驗(yàn)室還推出利用大語言模型進(jìn)行閉環(huán)端到端自動駕駛的工作LMDrive、自動駕駛視頻生成模型GenAD 等,上海人工智能實(shí)驗(yàn)室從多個(gè)技術(shù)維度對自動駕駛技術(shù)進(jìn)行探索,從而多方位提升其智能性。
同時(shí),上海人工智能實(shí)驗(yàn)室還主導(dǎo)了DriveLM(語言+ 自動駕駛數(shù)據(jù)集)、GenAD(駕駛視頻數(shù)據(jù)集)、OpenLane(車道線數(shù)據(jù)集)、OpenScene(3D 占用空間預(yù)測數(shù)據(jù)集)多個(gè)自動駕駛開源數(shù)據(jù)集建設(shè),主辦了 CVPR 2023 自動駕駛挑戰(zhàn)賽、CVPR 2024 自動駕駛挑戰(zhàn)賽,對自動駕駛研究生態(tài)的發(fā)展起到重要推動作用。
3.2 清華大學(xué)MARS Lab
清華大學(xué)MARS Lab 由前Waymo 科學(xué)家趙行成立和主導(dǎo)。2021 年初, MARS Lab 提出了視覺為中心的自動駕駛框架VCAD,發(fā)表了一系列BEV 和端到端自動駕駛的基石研究論文和工作:首個(gè)基于Transformer 的視覺BEV 檢測模型DETR3D、首個(gè)視覺BEV 3D 物體跟蹤模型MUTR3D、首個(gè)基于Transformer的多傳感器前融合3D 物體檢測模型FUTR3D、首個(gè)端到端軌跡預(yù)測模型ViP3D、首個(gè)3D 占用網(wǎng)絡(luò)的評測基準(zhǔn)數(shù)據(jù)集Occ3D 等。
MARS Lab 也是最早發(fā)表“ 無圖” 自動駕駛方案的團(tuán)隊(duì):2021 年初,發(fā)布首個(gè)在線高精度地圖模型HDMapNet;2022 年初,發(fā)布首個(gè)矢量高精度地圖模型VectorMapNet;2023 年初,開創(chuàng)性地提出了基于眾包的先驗(yàn)神經(jīng)網(wǎng)絡(luò)的地圖模型,
實(shí)現(xiàn)了自動駕駛地圖的記憶、更新、感知一體化。該系列工作為行業(yè)指明了技術(shù)落地方向,其中合作企業(yè)理想汽車將相關(guān)技術(shù)在其新能源車產(chǎn)品中進(jìn)行了廣泛應(yīng)用落地。
近期,MARS Lab 提出了自動駕駛快慢雙系統(tǒng)DriveVLM-Dual,一套基于大模型的可落地的自動駕駛方案。DriveVLM-Dual 將大模型和傳統(tǒng)自動駕駛方案有機(jī)結(jié)合,大幅提升了大模型的空間理解能力,并且規(guī)避了大模型的推理速度問題。 |