機器之心發布
機器之心編輯部
(資料圖片)
攝像頭能否實現激光雷達的檢測效果,以更低成本實現自動駕駛感知?在最新的 CVPR2023 論文《Collaboration helps camera overtake LiDAR in 3D detection》中,來自上海交通大學、加州大學洛杉磯分校、以及上海人工智能實驗室的研究者提出了純視覺協作探測方法(CoCa3D),通過讓多個基于純視覺的智能車高效協作,在 3D 目標探測效果上,接近甚至超越基于激光雷達的智能車。
論文標題:Collaboration Helps Camera Overtake LiDAR in 3D Detection
論文鏈接:
https://arxiv.org/abs/2303.13560
代碼鏈接:
https://github.com/MediaBrain-SJTU/CoCa3D
研究目的和意義
近年來,自動駕駛感知領域存在著巨大的技術分歧:以 Waymo 為代表的多傳感器融合派以激光雷達為主傳感器,而以 Tesla 為代表的視覺優先派堅持使用純攝像頭。其中激光雷達的主要問題在于價格昂貴,Velodyne 的 64 線激光雷達成本為 75,000 美金左右,成本高,難以擴大規模。純視覺的方案極低地降低了成本,Autopilot 2.+ 的 BOM 成本控制在 2,500 美金左右。但同激光雷達相比,攝像頭缺乏深度信息,在 3D 空間的目標檢測上存在天然巨大劣勢。雖然近年來基于鳥瞰圖(BEV)的技術方法快速發展,大大提升了純視覺探測的效果,但距離激光雷達的探測效果依舊相去甚遠。
為了突破純視覺 3D 空間感知能力瓶頸,CoCa3D 開辟了多車協作的全新維度,從物理屬性上迅速提升純視覺 3D 目標檢測能力。多輛純視覺智能車通過分布式地交換關鍵信息,使得來自多車多視角幾何信息可以互相校驗,能夠有效提升 2D 相機對 3D 空間的感知能力,從而接近激光雷達的探測效果。除此之外,多車多視角觀測信息的互相補充,能突破單體感知的視角局限性,實現更完備的探測,有效緩解遮擋和遠距離問題,進而超越單個激光雷達的 3D 空間感知效果。
圖 1. 多車協作可以避免 “鬼探頭” 引發的事故,實現更安全的智能駕駛
關鍵問題
與許多多視角幾何問題不同,多個純視覺車協作依賴先進的通信系統來進行信息交互,而現實情況下通信條件多變且受限。因此,多個純視覺車協作的關鍵問題在如何在通信帶寬限制的情況下,選擇最關鍵的信息進行共享,彌補純視覺輸入中缺失的深度信息,同時彌補單視角下視野受限區域缺失的信息,提升純視覺輸入的 3D 空間感知能力。
研究方法
CoCa3D 考慮以上關鍵問題,進行了兩個針對性的設計。
首先,協作信息應包含深度信息,這將使得來自多個純視覺車的不同角度的觀測,緩解單點觀測的深度歧義性,相互矯正定位正確的深度。同時,每個純視覺車過濾掉不確定性較高的深度信息,選擇最關鍵的深度信息分享,減少帶寬占用。最高效地彌補純視覺輸入相比 LiDAR 輸入缺失的深度信息,實現接近的 3D 檢測效果。
其次,協作信息中應包含檢測信息以緩解單點觀測的視角局限性,例如遮擋和遠程問題,相互補充檢測信息正確定位物體。并潛在地實現了更全面的 3D 檢測,即檢測所有存在于三維場景中的目標,包括那些超出視覺范圍的目標。同時,每個純視覺車過濾掉置信度較低的檢測信息,選擇最關鍵的檢測信息分享,減少帶寬占用。由于 LiDAR 也受到視野有限的限制,這潛在地使得多個純視覺車協作有可能取得勝過 LiDAR 的探測效果。
基于此動機,CoCa3D 整體系統包括兩個部分,單體相機 3D 檢測,實現基本的深度估計和檢測能力,以及多體協作,共享估計的深度信息和檢測特征以提高 3D 表示和檢測性能。其中多體協作由協作特征估計和協作檢測特征學習兩個關鍵部分構成。
圖 2. CoCa3D 整體系統框圖。協作深度估計(Collaborative depth estimation)和協作檢測特征學習(Collaborative detection feature learning)是兩大關鍵模塊
協作深度估計(Collaborative depth estimation, Co-Depth):旨在消除單體相機深度估計中深度的歧義性,并通過多視圖的一致性定位正確的候選深度。直覺是,對于正確的候選深度,其對應的 3D 位置從多個代理的角度來看應該在空間上是一致的。為此,每個協作者可以通過通信交換深度信息。同時,通過選擇最關鍵和明確的深度信息來提高通信效率。Co-Depth 由兩部分構成:a) 基于不確定性的深度消息打包模塊,將確定的深度信息打包為緊湊的消息包傳遞出去;和 b) 深度信息融合模塊,通過與接收到的來自其他協作者視角的深度消息校驗來緩解自身單視角下深度估計的歧義性。
協作檢測特征學習(Collaborative detection feature learning, Co-FL):協作深度估計會仔細細化深度并為每個智能體提供更準確的 3D 表示。然而,單一智能體的物理局限性,如視野受限、遮擋和遠程問題仍然存在。為了實現更全面的 3D 檢測,每個智能體都應該能夠交換 3D 檢測特征并利用互補信息。同時,通過選擇感知上最關鍵的信息來提高通信效率。核心思想是探索感知信息的空間異質性。直覺是包含目標的前景區域比背景區域更關鍵。在協作過程中,帶有目標的區域可以幫助恢復由于有限視野而導致的漏檢問題,而背景區域則可以忽略以節省寶貴的帶寬。Co-FL 由兩部分構成:a)基于檢測置信度的感知信息打包模塊,在檢測置信度的指導下打包空間稀疏但感知上關鍵的三維特征;和 b)檢測信息融合模塊,通過補充接收到的來自其他協作者視角的檢測信息來提升自身受限視角下的不完備的三維特征。
圖 3. 數據集 CoPerception-UAVs + 和 OPV2V + 仿真環境
圖 4. 數據集 CoPerception-UAVs+、DAIR-V2X 和 OPV2V + 樣本可視化
實驗效果
為全面展示本文所提出的 CoCa3D 的優異性能,研究者在三個數據集上對其進行驗證,包括無人飛機集群數據 CoPerception-UAVs+, 車路協同仿真數據集 OPV2V+,以及車路協同真實數據集 DAIR-V2X。其中 CoPerception-UAVs + 是原始的 CoPerception-UAVs(NeurIPS22)的擴展版本,包括更多的智能體(約 10 個),是更一個大規模無人機協同感知的數據集,由 AirSim 和 CARLA 共同模擬生成。OPV2V + 是原始的 OPV2V(ICRA 22)的擴展版本,包括更多的智能體(約 10 個),是更一個大規模車路協同的數據集,由 OpenCDA 和 CARLA 共同模擬生成。
圖 5. CoCa3D 在多數據集上均取得了接近激光雷達的 3D 目標檢測效果
研究者發現,CoCa3D(實線)在 10 個相機的協作下在 OPV2V+ 上的 AP@0.5/0.7 都優于 LiDAR 3D 檢測!由于真實車路協同數據集 DAIR-V2X 僅有 2 個協作相機,我們使用 OPV2V + 的斜率來擬合真實車路協同數據集上的檢測性能與協作相機個數的函數,發現在實際場景中,僅 7 個協作相機即可實現優于 LiDAR 3D 檢測的效果!此外,隨著協作代理數量的增加,檢測性能的穩步提高鼓勵協作者積極協作并實現持續改進。
基于協同感知數據集 OPV2V+,研究者對比了單體感知和協作感知在 3D 目標探測任務的效果,如下面的動圖所示(綠框為真值,紅框為檢測框)。a/b 圖展示了單個相機 / 激光雷達的探測效果,受限于傳感器的探測范圍和物理遮擋,右側路口的多量車難以被有效探測,c 圖展示了多個無人車的相機協作探測的效果,基于本文提出的 CoCa3D 方法,實現了超視距的感知。由此可見,協作感知通過同一場景中多智能體之間互通有無,分享感知信息,使得單個智能體突破自身傳感器的局限性獲得對整個場景更為準確全面的理解。
圖 6. 3D 檢測結果 3D 視角和 BEV 視角可視化(紅框為檢測框,綠框為真值)。(a) 單個相機檢測效果可視化,(b) 激光雷達檢測效果可視化,(c) 協作相機檢測效果可視化。
CoCa3D(紅線)在多個數據集上多種通信帶寬條件下均實現 3D 感知效果的大幅提升
值得注意的是,相比之前的基線方法 V2X-ViT(ECCV 22),針對某個特定通信量進行了有針對性的模型訓練,因此在通信量 - 探測效果的圖中是一個單點。而 CoCa3D 可以自動調整和適應各個通信量,因此是一條曲線。由此可見,CoCa3D 實現了感知效果與通信消耗的有效權衡,能自適應資源多變的通信環境,且在各種通信條件下均取得了優于基線方法 Where2comm(NeurIPS 22)的感知效果。
圖 7. CoCa3D 在多個數據集上多種通信帶寬條件下均取得最優的 3D 感知效果
CoCa3D 有效提升單體深度估計,使得協作深度估計接近真實深度
研究者發現:i)單個視角下深度估計可以估計相對深度,但無法精確地定位深度絕對位置,例如,車輛比其所在的平面更高,但這個平面沒有正確分類;ii)通過協作的深度信息分享,引入多視圖幾何,協作估計的深度可以平穩而準確地定位平面;iii)對于遠距離和背景區域,深度的不確定性較大。原因是遠處的區域很難定位,因為它們占用的圖像像素太少,而背景區域由于沒有紋理表面而難以定位。
圖 8 深度和不確定性的可視化
總結與展望
CoCa3D 聚焦在核心思想是引入多體協作來提高純視覺的 3D 目標檢測能力。同時,優化了通信成本,每個協作者都仔細選擇空間稀疏但關鍵的消息進行共享。相關技術方法將 AI 和通信技術高度整合,對車路協同,無人集群等群體智能應用有著深刻影響。在未來,也期待這種思路可以被更廣泛應用于高效提升單體的各類型能力,將協作感知拓展到協作自動系統,全方位地提升單體智能。
責任編輯:Rex_24