對話理想智駕VP郎咸朋: 輕地圖、GPT將如何改變自動駕駛? 環球資訊
來源:機器之心
(相關資料圖)
在車企爭先恐后推送城市NOA的節點,大家對這一功能的實際效果卻是褒貶不一。在這一背景下,理想汽車在上海車展宣布,AD Max 3.0的城市NOA導航輔助駕駛,將于第二季度開啟推送,并于年底前完成100個城市的落地,且對用戶終身免費。 在這套城市NOA算法中,使用了三種神經網絡大模型算法: 靜態BEV網絡算法,動態BEV網絡算法以及Occupancy網絡算法。在通過此套方案宣布其進入「智駕3.0時代」后,理想汽車智能駕駛副總裁郎咸朋,以及理想智能駕駛產品負責人趙哲倫接受了我們的訪談,他們不僅進一步解釋了理想城市NOA的特點,還對現下流行的技術方案、后續的升級問題,以及未來的路線給出了自己的見解。 據介紹,AD Max 3.0的城市NOA所采用的靜態BEV,可以在部分攝像頭被遮擋,車道線模糊時依舊補充出道路結構,解決高精地圖數據實時性的問題。 動態BEV神經網絡也具備了一定的「腦補」能力,例如當車輛同時出現在多顆攝像頭視野內時,動態BEV可以穩定追蹤并感知出物體的距離與速度。 Occupancy網絡算法則可以對物理世界進行數據化建模,通過純視覺還原真實場景,例如路側垃圾桶、臨時的施工牌等「通用障礙物」。同時,理想汽車還使用NeRF技術,進一步提升了Occupancy在遠距離的分辨率,加強系統的感知能力。 針對這套方案的特點和思考,郎咸朋和趙哲倫與我們進行了深入的討論。 Q:您可否對「靜態BEV、動態BEV」這兩個名詞加以解釋?趙哲倫:所謂靜態BEV,就是將靜態世界用BEV算法還原出來,也就是車道線和道路的結構,可以理解為這些即是用高精地圖做的部分,也是變化較少的部分(除了施工改道等變化)。 而動態就是指不斷變化的交通參與者,例如人,騎車人,車,偶爾還會有一些動物之類的元素。 另外,除了靜態和動態,我們還提出了「通用障礙物」,即那些不需要區分類型,但依然需要避讓的元素,我們用Occupancy算法去完成這部分的識別。 實際上,向城市NOA發展動態參與者會非常復雜,雖然靜態來講相對穩定,但是識別也需要非常準確。理想 將這三種算法整合在一起,對其進行預測。 Q:如何選擇推送城市NOA的城市,需要有什么先決條件?郎咸朋:我們的基礎架構不受限于高精地圖,城市NOA的開放邏輯是基于訓練里程的,這就取決于這座城市里的車主保有量及開車頻率。 哪里的訓練量足夠多,實際路口的通行次數夠多,哪里就可以開放。(理想汽車智能駕駛副總裁 郎咸朋)
趙哲倫:關于城市NOA適應的場景,這是行業共同的問題,也就是長尾問題:要覆蓋大部分的生活場景并不是很難的事,但剩下的小部分場景卻非常難解決。 整個物理世界被分割成三個部分:第一部分是靜態的道路結構,第二部分是動態的交通參與者;第三部分是障礙物——中國存在非常多的改道和施工,第二與第三部分在這里尤為復雜,與北美相比是數量級的差別。 這些因素導致最后的10%乃至1%,會需要比較長的迭代周期。 如果以「接管率」作為要求,我們認為初期做到「單次行程接管一次以內」就算是較好的用戶體驗。再往后是一天接管一次,一周接管一次……如果能做到一周接管一次,那就非常有用戶價值了。 Q:如果可以量化疲勞度,什么時候城市NOA的體驗能達到比較安心的狀態?趙哲倫:在高速路的固定場景中,我們很容易掌握別的車和自己車的邊界在哪里,但城市的場景中有很多需要預測的部分, 如果人對車的決策無法預知,就容易心慌。所以,理想在城市NOA的環節,為了讓用戶提高信任度, 會進一步優化整個交互上的顯示,讓駕駛員能更理解AI的思維方式。例如,在車機的EID上,你可以看到車輛有沒有預測到會和別車交匯,也就明白車輛將會制動,你也就會更有安全感。 其實現在特斯拉在北美最新的交互上已經有這樣的展示了,它會預告車的加減速或者制動,這樣會在很大程度上提升信任感。 另外還有接管率的問題,雖然城市場景比高速難很多, 但是我們基本上能做到20-30公里接管一次。Q:年底規劃開發100個城市,這是個恐怖的速度。反過來在安全層面,我們在人機互駕上有沒有考慮過優化升級?趙哲倫:人機互駕對用戶的要求也是比較高的。大家如果關注現在的高速輔助駕駛,目前至少在理想的用戶中,使用率還是比較高的,日活能達到30%,是一個比較高的數字。 但用戶需要清晰地掌握它的邊界,才能很好的使用。如果放眼整個汽車行業,依然有大部分用戶沒怎么真正使用過這樣的系統。 所以,在城市NOA的推送過程中,也會參考從核心高頻率使用、至少是對輔助駕駛有深刻了解的用戶來首先推送。 Q:理想的城市NOA方案沒有收費,可是友商都在收費,這樣做的邏輯是什么?趙哲倫:如果訂閱,每年基本需要付數千元,到賣車的時候也付了數萬元了,但這筆費用其實完全沒有任何的保值作用。 我們考慮的是,如何讓在用戶賣二手車的時候,車整體上仍是他的「資產」,而不是他的「消費」, 所以我們會選擇前期以一個低成本的硬件BOM價格去預埋在車上,硬件的成本是在車里面的。但是在賣車的時候,這個價值依然能得到體現,而且其軟件功能其實更強大了,價值體現得更加充分。 郎咸朋:如果你說有一張高精地圖,它覆蓋了中國所有的道路,每分鐘就能更新一次,而且還很便宜,1塊錢就能用一天,我肯定會非常贊同使用高精地圖。 這3個特點又恰恰是高精地圖的制約點:如果想獲得高鮮度,勢必要頻繁更新;如果想獲得元素豐富的信息,制作工藝又勢必會非常復雜。 還有一個原因是我們國家實在是太大了,所有的道路一共有1000萬公里左右。(其中高速公路只有30萬公里的高速,所以說在高速場景利用高精地圖還是能實現的。) 如果想把這1000萬公里的道路全都做一遍高精地圖,需要花費上億元的成本。因為每做1公里高精地圖,大概是100元的成本。 所以,為什么大家都不用高精地圖了,并不是說其本身不好,而是我不具備使用它的條件。同時,還有另一個問題,之前做高精地圖,是因為還沒有靜態BEV、動態BEV等算法。這兩年,因為大家認為高精地圖存在使用痛點,而且隨著算法能力變強、車身傳感器增多,逐漸就有了靜態特征信息的檢測算法。利用靜態BEV算法,相當于在開著車的同時,局部圖就構建好了。 現在我們做的并不是高精地圖,而是智能駕駛所需的元素、特征、信息的一張圖,它不需要反饋道路邊界在哪,具體入口位置在哪,因為我們具備自己的實時感知能力,只需要自己去判斷車道線在哪就好了。 例如,當車輛左轉彎,轉過去之后是否有道路連接,左轉道路與后續直行道路是否有拓撲關系,這個關系比「確定道路邊界在哪」更重要。 這種智能駕駛需要了解的信息,我覺得只做地圖的人可能會了解得少一點。 Q:可否理解為,BEV解決的其實是單車單點的問題,但是地圖有定位,二者相輔相成?郎咸朋:之前大家想用規則式的、寫得特別清楚的方式去做智能駕駛,所以才有了高精地圖。 但現在有越來越多的人理解到: 要想最終實現自動駕駛,要從人工智能角度來解。我們想教會系統像人一樣思考和開車:你開車的時候也并不是要把整個中國地圖全裝到腦子里,才會開這輛車,而是邊開邊判斷。 其實在做高精地圖的時候,還有一個細節:圖商希望能繪制出智能駕駛的規劃路徑,就是智能駕駛知道該怎么開,只要沿著地圖上畫的線開就好了。 但是哪有那么容易的事,路上有各種各樣的復雜交通參與者,尤其在城市場景里面,這種思路是錯誤的。 Q:目前大家說不依賴高精地圖的城市NOA,是真的一下把高精地圖丟開,還是逐步將其降權?郎咸朋:我們也看到了不依賴地圖或者重感知、輕地圖的說法,其中有幾種方案: 大家在高精地圖和非高精地圖之間,或者導航地圖和非高精地圖之間制作地圖,叫 HD Map-或者叫 SD Map+。 HD Map-,其實還是用了高精地圖,只不過是少用了幾個元素而已;而SD Map+就是在導航地圖的基礎上,增加了一點匹配智能駕駛的元素。 大家都說輕地圖,要看輕的是什么,是從高精地圖上做簡化,還是從SD Map上做加法?這是感知區別,我比較傾向于后者。Q:剛才提到的道路拓撲關系,現在在理想的城市NOA的技術棧里面是由誰來負責?郎咸朋:這種拓撲關系在國內還是由圖商負責。我們與高德也會展開一些討論和合作,高德會發布OEM圖層的邏輯,方便在合作時將智能駕駛特征相關的信息在OEM里面進行體現。 Q:目前在城市NOA,理想的技術棧里面,道路的連接關系是怎么獲得的?郎咸朋:實際上關于拓撲關系,我們有自己的生產方式。 舉一個紅綠燈路口的例子:在實車體驗時可以發現,位于路口時會有一個小的神經網絡去做端到端的訓練——給我一張圖,我就告訴你這里該轉向還是直行,而不是說根據紅綠燈與道路的關聯,再根據道路拓撲做判斷,這還是有本質區別的。 Q:關于大模型算法,據說新勢力第一梯隊的表現不是理想,您怎樣看待這個問題?郎咸朋:這是低估我們了。如果不是以大模型算法訓練為前提,我們不可能有那么多訓練里程。 從一開始,理想就將智能駕駛當成長期AI的問題對待。在車展現場公布訓練里程時,最早的是2019年的數據。也就是說,從那時起我們就已開始了算法訓練。 在做第一代產品時,大家用的都是供應商的方案,那時理想就已經開始做訓練里程和算法的積累。在2021年,理想有了AD1.0,那是我們第一次全棧自研,已經積累了1億多里程的訓練里程。 到了AD2.0,也就是去年,我們是全球第一個交付Orin X芯片的高速NOA,這樣的速度都是源于訓練里程的積累。 理想一直堅持認為, 對于所謂的「自動駕駛」,要看成人工智能問題,那么關鍵點就是三要素:算法、算力、數據。 我們認為最終競爭的決勝點是數據,是擁有多少訓練里程。建立這個思路之后,大家就不難理解:為什么要標配AD?因為只有標配才能有最大規模的量,而且訓練里程中的樣本種類也豐富。 之所以BEV網絡的訓練迭代速度會非???,其實也是源于數據。現在我們有4億公里的訓練里程,而且都是挖掘出來的真正有用的數據。 還有一點,就是總量大不大,也就是產品銷量也必須要高,這兩點相乘才是最終獲取到的訓練里程規模。 Q:對于端到端的基礎戰略,理想是怎么看的?你們對AI和神經網絡的應用會到什么程度?郎咸朋:端到端有可能是根據一張圖就能出結果,但也有可能是局部的端到端。隨著算力的增大,確實大家的想象空間會變大。 原來因為算力不足,必須把感知、決策、規劃和控制分開做,而現在算力高了,于是可以嘗試將一些東西合在一起做端到端。 我們會保持探索這一方向,但對于現在的產品而言,我們還是要用自己的大模型確保感知、BEV等。 在規控上,理想主要有兩方面的考慮:一是控制結果要確保安全,這可以以規則去做, 最終規控是Rule-Based和Neural-Based的結合,而不是完全Rule-Based的東西,因為我們一定要把智能駕駛以體驗作為驅動。 第二點考慮,是控制結果要與人類駕駛體驗吻合?;诖耍覀兊南敕ㄊ怯眯〉纳窠浘W絡去做。 Q:有人說GPT范式看起來是人工智能的邊界,它會否改寫智能駕駛的基礎范式?例如拉一個很大的模型,基于這個模型做出很有常識的東西,然后把它拿來適應駕駛任務。郎咸朋:目前看來,這是一個合理的趨勢。GPT最大的好處是可以用大量的弱標注或者粗標注的樣本,來獲取一定的基礎能力;然后再用精標的小數據去做調整,在某些任務上得到更好的結果,我們現在也在這么做。 舉一個例子,比如數學考試,肯定是先掌握各種各樣的數學知識,來補充基礎素質。之后在臨考前,做一下歷年真題,掌握解題技巧;最終在考試時,分數就可能會比較好。 但之前因為沒有大模型這種思路,大家就是拼命刷題、精標數據。這樣萬一題型有改變,那考試成績就會變得很差。這是GPT范式和非GPT范式的區別,我認為前者是有一定合理性的。 Q:您是如何看待特斯拉的Dojo,還有友商小鵬的「扶搖」這種大型的用于數據訓練的機型?郎咸朋:其實Dojo和扶搖都是很好的訓練集群,但我理解它們只是算力底座或算力基建,上面搭載的是整套虛擬閉環和數據閉環。 特斯拉這套系統最強大的是車端數據的采集和訓練,是一個非常高效迭代的閉環,小鵬的扶搖可能只是一個訓練集群,但搭載的數據閉環是否效率很高,他們沒有講過,我們也不得而知。 Q:理想現在認為自己的硬件,到2025年這段時間,對于應用需要的感知和計算能力是否能夠滿足?趙哲倫:理想最早使用的是單模攝像頭+單毫米波雷達,再到后來的環視攝像頭。目前從L系列來說,無論是Pro還是Max都具備周視相機和大算力的芯片,這點已經帶給開發很大的自由度。 至于是否能夠支持到2025年,目前看來肯定是可以的。Q:剛才提到了,原來咱們跑CNN,需要的是帶寬密集型芯片;現在跑Transformer,需要的是算力密集型芯片,我想向您確認一下,這種說法是否準確?郎咸朋:帶寬密集型還是算力密集型,與硬件本身的設計是強相關的。英偉達在設計芯片的時候,其實還沒有Transformer,但現在它也做了很多相關的優化補丁。 我們與英偉達之間的互動其實非常多,我們提了很多意見和建議,現在反饋得到的優化也很顯著。在它下一代的芯片里面,也會更好地解決硬件加速和優化的問題。 機器智行為機器之心推出的智慧出行垂直媒體,關注自動駕駛、新能源、芯片、軟件、汽車制造和智能交通等方向的前沿研究與技術應用,透過技術以洞察產品、公司和行業,幫助汽車領域專業從業者和相關用戶了解技術發展與產業趨勢。 關鍵詞:
最新文章