CVPR 2023 正式公布最佳論文等重磅獎(jiǎng)項(xiàng)。來(lái)自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技團(tuán)隊(duì)聯(lián)合發(fā)表論文Planning-oriented Autonomous Driving(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)實(shí)現(xiàn)自動(dòng)駕駛技術(shù)的重要突破,獲CVPR最佳論文。
國(guó)內(nèi)自動(dòng)駕駛,真的出息了!
(資料圖)
一覺(jué)醒來(lái),還沒(méi)來(lái)得及吃口熱乎粽子,就看見(jiàn)一條堪稱(chēng)爽文的熱乎新聞:
在2023年,CVPR大會(huì)的論文投稿總量達(dá)9155篇。其中,商湯科技及聯(lián)合實(shí)驗(yàn)室共有 54篇論文被CVPR 2023接收,包含一篇最佳論文、一篇最佳論文候選,以及七篇Highlight論文。
論文題目:Planning-oriented Autonomous Driving
論文地址:https://arxiv.org/abs/2212.10156
在近萬(wàn)篇論文中,上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合團(tuán)隊(duì)研究成果Planning-oriented Autonomous Driving(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)最終脫穎而出,獲CVPR 2023最佳論文獎(jiǎng)(Best Paper Award)。
(劃重點(diǎn))要知道這個(gè)國(guó)際獎(jiǎng)項(xiàng)已經(jīng)頒了40年,但以自動(dòng)駕駛為主題的論文獲獎(jiǎng)可是第一次!
另外參與CVPR評(píng)選需要和全球各地的頂尖學(xué)者來(lái)一套“過(guò)五關(guān)斬六將”,拿了這個(gè)獎(jiǎng)堪稱(chēng)為國(guó)爭(zhēng)光(進(jìn)度條:已擊敗全球99.99%學(xué)者/學(xué)術(shù)機(jī)構(gòu))!
平復(fù)激動(dòng)的心情,接下來(lái)咱們就聊聊這個(gè)獲獎(jiǎng)的事兒。
首先這個(gè)頒獎(jiǎng)機(jī)構(gòu)用一個(gè)詞來(lái)形容,就是頂級(jí)(到能讓一個(gè)研究生原地畢業(yè))。
CVPR一年舉辦一次,是計(jì)算機(jī)視覺(jué)領(lǐng)域的全球級(jí)會(huì)議。要想知道一個(gè)會(huì)議有多少含金量,看業(yè)內(nèi)人的關(guān)注度就懂了,CVPR的隆重程度:從1983年開(kāi)始,每年吸引著全球各地的學(xué)術(shù)大牛們來(lái)參與,近幾年投稿量都近萬(wàn)篇,即使這些天之驕子總是第一輪就會(huì)被刷掉3/4。
當(dāng)然這可不是什么鍍金的手段,這個(gè)會(huì)議憑借著高質(zhì)量和低成本,它為眾多研學(xué)者提供著教科書(shū)般的行業(yè)價(jià)值。目前在中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦國(guó)際學(xué)術(shù)會(huì)議的排名里,CVPR為人工智能領(lǐng)域的A級(jí)會(huì)議。
除了水平認(rèn)證,CVPR回報(bào)給這些學(xué)者們最重要的是尊重和公平。在初次篩選中,評(píng)審們給出的選擇不是通不通過(guò),而是細(xì)致到“非常接受”、“接受”、“差不多”、“拒絕”、“非常拒絕”。
同時(shí)評(píng)審們不屬于CVPR機(jī)構(gòu)組織,對(duì)手里的稿件都是盲審。最關(guān)鍵的是,稿件不允許出現(xiàn)任何能顯示作者信息身份的元素(懷疑定這個(gè)規(guī)矩的人參加過(guò)我們語(yǔ)文高考)!所以評(píng)審們和作者都不知道彼此是誰(shuí)!因此,最后脫穎而出的作品都是用實(shí)力經(jīng)過(guò)細(xì)審,沒(méi)什么運(yùn)氣的成分。
話說(shuō)咱們國(guó)內(nèi)智能車(chē)現(xiàn)在發(fā)展的如火如荼,也不知道當(dāng)時(shí)有沒(méi)有評(píng)審猜中過(guò)這篇論文的歸屬地。話不多說(shuō),接下來(lái)咱們就來(lái)看看這篇論文是靠什么獲得國(guó)際認(rèn)證的。
我們?nèi)祟?lèi)開(kāi)車(chē)時(shí)的思路通常是“堵車(chē)了,我得剎停”,而自動(dòng)駕駛車(chē)的思路則是“感知前方障礙物的時(shí)速和距離、系統(tǒng)算法判斷場(chǎng)景需求決定剎車(chē)、牽動(dòng)制動(dòng)系統(tǒng)”。顯然,如果自動(dòng)駕駛系統(tǒng)將流程整合起來(lái)會(huì)帶來(lái)更絲滑、BUG更少的體驗(yàn)。
這篇以自動(dòng)駕駛為主題的論文就是從此角度切入問(wèn)題,核心在于首次提出感知決策一體化的自動(dòng)駕駛通用大模型UniAD。UniAD將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè),占據(jù)柵格預(yù)測(cè)以及規(guī)劃,整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下。
不用覺(jué)得復(fù)雜,我們挑取2個(gè)重點(diǎn)詞“檢測(cè)”、“規(guī)劃”,也就是說(shuō)這個(gè)框架在環(huán)境中可以直接給出相應(yīng)的指令。
UniAD將各任務(wù)通過(guò)token(最小單位)的形式在特征層面,按照感知-預(yù)測(cè)-決策的流程進(jìn)行深度融合,使得各項(xiàng)任務(wù)彼此支持,實(shí)現(xiàn)性能提升。在nuScenes數(shù)據(jù)集的所有任務(wù)上,UniAD都達(dá)到 SOTA 性能。
融合五大核心模塊,解決自動(dòng)駕駛“規(guī)劃”難題
為什么之前的自動(dòng)駕駛系統(tǒng)做不到呢?
現(xiàn)有的自動(dòng)駕駛系統(tǒng)可大致歸為三類(lèi):
(a)模塊化組成的系統(tǒng);
(b)多任務(wù)模塊架構(gòu)的系統(tǒng);
(c)端到端自動(dòng)駕駛系統(tǒng)。
其中傳統(tǒng)的端到端算法可分為:
(c.1)基礎(chǔ)的端到端算法,直接從傳感器輸入預(yù)測(cè)控制輸出,但是優(yōu)化困難,在充滿(mǎn)復(fù)雜視覺(jué)信息的真實(shí)場(chǎng)景中應(yīng)用面臨較大挑戰(zhàn);
(c.2)按照任務(wù)劃分網(wǎng)絡(luò)的顯式設(shè)計(jì),但是網(wǎng)絡(luò)模塊之間缺乏有效的特征溝通,需要分階段的輸出結(jié)果,任務(wù)間缺乏有效交互。
(c.3)這篇論文里提出的決策導(dǎo)向的感知決策一體設(shè)計(jì)方法,用token特征按照感知-預(yù)測(cè)-決策的流程進(jìn)行深度融合,使得以決策為目標(biāo)的各項(xiàng)任務(wù)指標(biāo)一致提升。
最為常見(jiàn)的是模塊化組成的系統(tǒng)架構(gòu),或者部分模塊組成多任務(wù)架構(gòu),他們都以?xún)?yōu)化部分性能為核心,比如檢測(cè)性能(檢測(cè)準(zhǔn)確度)、預(yù)測(cè)性能(預(yù)測(cè)準(zhǔn)確度)。
以上一些算法的BUG總結(jié)起來(lái)其實(shí)就是流程瑣碎,一損俱損。這和當(dāng)下智駕方案都急著擺脫高精地圖的原因有點(diǎn)類(lèi)似。畢竟依賴(lài)高精地圖的話,哪怕硬件、算法再好,只要地圖有偏差,整套方案直接崩盤(pán)。所以大家都在做“簡(jiǎn)化和收納”。
而端到端自動(dòng)駕駛系統(tǒng),以UniAD自動(dòng)駕駛通用大模型為代表,將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)、占據(jù)柵格預(yù)測(cè)以及規(guī)劃五大模塊融合,以最終的駕駛性能為目標(biāo),從解決實(shí)際問(wèn)題出發(fā),例如提升規(guī)劃出來(lái)的車(chē)輛行駛軌跡的安全性。
現(xiàn)在行業(yè)中大多數(shù)端到端(End-to-end,E2E)的自動(dòng)駕駛系統(tǒng),由于沒(méi)有很好的網(wǎng)絡(luò)框架來(lái)融合全部五大模塊,都只能融合部分模塊。
UniAD通過(guò)將環(huán)視的圖片以Transformer映射得到BEV的特征,同時(shí)進(jìn)行目標(biāo)的跟蹤,在線的建圖,包括目標(biāo)軌跡的預(yù)測(cè),還有障礙物的預(yù)測(cè),最終實(shí)現(xiàn)駕駛行為。環(huán)視一圈,現(xiàn)觀察現(xiàn)預(yù)測(cè),然后決定怎么行動(dòng),聽(tīng)起來(lái)是不是有人類(lèi)開(kāi)車(chē)的味兒了?
據(jù)商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示,UniAD可以做到“多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%,車(chē)道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移誤差降低38%,規(guī)劃誤差降低28%。”
下面展示了UniAD在數(shù)據(jù)集nuScenes上多個(gè)復(fù)雜場(chǎng)景下的優(yōu)勢(shì)。
UniAD 感知到左前方等待的黑色車(chē)輛,預(yù)測(cè)其未來(lái)軌跡(即將左轉(zhuǎn)駛?cè)胱攒?chē)的車(chē)道)和未來(lái)的occupancy,推算繼續(xù)前行有碰撞風(fēng)險(xiǎn),并立即減速以進(jìn)行避讓?zhuān)谲?chē)駛離后再恢復(fù)正常速度直行。
得益于 UniAD 的地圖分割模塊與規(guī)劃模塊的深度交互,規(guī)劃模塊基于道路信息作出判斷,向前行駛時(shí)依據(jù)道路結(jié)構(gòu)適時(shí)地轉(zhuǎn)彎。
在視野干擾較大且場(chǎng)景復(fù)雜的十字路口,UniAD 能通過(guò)分割模塊生成十字路口的整體道路結(jié)構(gòu)(如右側(cè) BEV 圖中的綠色分割結(jié)果所示)和周?chē)?chē)輛的軌跡,由基于注意力機(jī)制的planner完成大幅度的左轉(zhuǎn)。
在夜晚視野變暗的情況下,由于需要繼續(xù)直行至下個(gè)路口左轉(zhuǎn),UniAD 能感知到前車(chē)停止且左右均有障礙物,所以先靜止,待前車(chē)行駛并再前行并左轉(zhuǎn)。
雖然現(xiàn)在自動(dòng)駕駛的目標(biāo)還是趕緊追上人類(lèi),但是不得不說(shuō)有些場(chǎng)景中大模型觀察環(huán)境比我們都更加全面細(xì)致,以下案例,展示了UniAD在國(guó)內(nèi)真實(shí)場(chǎng)景的實(shí)際演示效果。
在擁堵路段上,UniAD能感知到前方大車(chē)的停車(chē)和啟動(dòng)狀態(tài),做出相應(yīng)的減速和加速?zèng)Q策,保持足夠的安全距離。
得益于地圖重建任務(wù),UniAD在路口和曲折道路上,也可以做出符合道路曲率的路徑規(guī)劃。
自動(dòng)駕駛多模態(tài)大模型發(fā)展和落地
在學(xué)術(shù)圈大家都認(rèn)這么一個(gè)理兒:不能落地的論文得再好的獎(jiǎng)也沒(méi)有價(jià)值。這篇《以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛》用幾千字提出了UniAD 這項(xiàng)自動(dòng)駕駛技術(shù),為產(chǎn)業(yè)發(fā)展拓展了一個(gè)新的方向。實(shí)際上,它的創(chuàng)造者已經(jīng)在努力將這些價(jià)值落地了。
作為創(chuàng)作者之一的商湯科技,一直致力于自動(dòng)駕駛技術(shù)領(lǐng)域的研究和發(fā)展布局。例如在今年上海車(chē)展上,商湯展示了廣汽埃安AION LX Plus、哪吒S等車(chē)型搭載商湯絕影智能駕駛方案的落地成果。
王曉剛將這些成果歸功于商湯持續(xù)建設(shè)打造“大模型+大裝置”技術(shù)路徑,以及在自動(dòng)駕駛行業(yè)長(zhǎng)期深耕的積累與實(shí)踐,并表示未來(lái)將沿著多模態(tài)大模型的道路,去進(jìn)一步推動(dòng)自動(dòng)駕駛的進(jìn)步。
所以這篇論文不只是學(xué)術(shù)上一次舌戰(zhàn)群儒的勝利,更關(guān)鍵的是它將成為自動(dòng)駕駛大漠臺(tái)多模型落地的標(biāo)志,繼續(xù)發(fā)揮它的應(yīng)用價(jià)值,去推動(dòng)實(shí)現(xiàn)更高階的自動(dòng)駕駛?cè)斯ぶ悄堋F诖龂?guó)內(nèi)自動(dòng)駕駛行業(yè)再次實(shí)現(xiàn)擊敗全球99.99%對(duì)手的進(jìn)度條!
責(zé)任編輯:Rex_22