對(duì)于AR/VR來(lái)講,實(shí)時(shí)、準(zhǔn)確的深度感知有助于實(shí)現(xiàn)穩(wěn)定、良好的混合現(xiàn)實(shí)效果,將虛擬內(nèi)容更好地與物理空間融合。在移動(dòng)AR場(chǎng)景,我們可以通過(guò)手機(jī)的ToF、LiDAR傳感器對(duì)周圍環(huán)境進(jìn)行3D測(cè)距,而AR/VR設(shè)備也開(kāi)始在探索此類傳感器的應(yīng)用。本文中,Karl Guttag對(duì)基于新型3D傳感技術(shù)Switching Pixels的VoxelSensor進(jìn)行了解析,發(fā)現(xiàn)此方案快速、準(zhǔn)確,甚至技術(shù)比現(xiàn)有3D傳感方案還好。
據(jù)青亭網(wǎng)了解,Switching Pixels由晶圓半導(dǎo)體公司VoxelSensors開(kāi)發(fā),這是一種3D感知和掃描框架,原理基于LBS激光掃描,特點(diǎn)是省電(檢測(cè)到光才會(huì)生成事件)、低延遲、3D傳感效果穩(wěn)定、適合各種照明條件、可追蹤活動(dòng)光源或圖案。Switching Pixels的掃描頻率可達(dá)100MHz,號(hào)稱比其他3D掃描速度快100倍。
Karl認(rèn)為,Switching Pixels保持對(duì)激光非常敏感的同時(shí),又能排除其它光線。另外,雖然該方案也是在識(shí)別到事件后才觸發(fā)掃描,但其運(yùn)行方式不同于常見(jiàn)的“事件相機(jī)”。簡(jiǎn)單來(lái)講,Switching Pixels的區(qū)別是專注于識(shí)別激光事件,性能比普通事件相機(jī)更好,但也可以使用事件相機(jī)的算法。
【資料圖】
原理和細(xì)節(jié)
最開(kāi)始,Switching Pixels以Lissajous模式快速掃描整個(gè)區(qū)域,并生成空間圖像。如果空間在掃描過(guò)程靜止不動(dòng),那么該方案便會(huì)不斷提升分辨率。因此可以認(rèn)為,Switching Pixels的高分辨率建立在一系列最新的稀疏掃描數(shù)據(jù)之上。
據(jù)了解,Switching Pixels在不到1毫秒時(shí)間內(nèi),就能生成掃描范圍內(nèi)的完整稀疏圖像。相比之下,典型LiDAR方案通常需要16毫秒或更久的掃描時(shí)間,再加上數(shù)據(jù)處理時(shí)間,會(huì)有一定延遲。因此相比于典型的dToF/LiDAR傳感器,VoxelSensors的方案速度快10倍以上,而且在任何時(shí)間捕捉到的圖像分辨率都更高。為什么呢?因?yàn)镾witching Pixels的測(cè)距準(zhǔn)確性不像LiDAR那樣受限于光速,也不依賴于大量的光速校準(zhǔn)。
如果將兩個(gè)Switching Pixels模組結(jié)合,便可通過(guò)三角測(cè)量法來(lái)識(shí)別精確的3D形狀、位置、輪廓和運(yùn)動(dòng)(每納秒生成一個(gè)新的立體像素),不需要復(fù)雜的圖像處理過(guò)程。
只需要不到1毫秒,就可以捕捉到可定位的深度信息(耗電大約只有幾十毫瓦),幾毫秒后,便可生成密集的深度信息,用于空間測(cè)繪和人機(jī)交互。
不過(guò),該方案還在早期演示階段,硬件重量和體積大,還很難與AR/VR頭顯集成。VoxelSensors預(yù)計(jì),隨著Switching Pixels體積不斷縮小,未來(lái)計(jì)劃在AR/VR中集成兩個(gè)這樣的模組,來(lái)實(shí)現(xiàn)3D掃描。
結(jié)合OQmented技術(shù)
去年12月,VoxelSensors曾宣布與LBS和3D傳感方案商O(píng)Qmented合作,開(kāi)發(fā)可集成AR/VR系統(tǒng)的3D激光掃描傳感器。該傳感器將結(jié)合OQmented的Lissajous模式的MEMS掃描鏡,與每幀逐行工作的光柵掃描相比,Lissajous軌跡掃描速度更快,并且能耗很低,它可以更快地捕獲完整的場(chǎng)景和快速移動(dòng),并且需要更少的數(shù)據(jù)處理,可滿足AR/VR對(duì)于低延遲、高效率的需求。
多年來(lái),OQmented也一直在嘗試?yán)肔issajous掃描工藝來(lái)制造LBS顯示模組,不過(guò)Guttag認(rèn)為,基于Lissajous顯示模組意義不大,也沒(méi)有競(jìng)爭(zhēng)力。反而是3D傳感器方案可能會(huì)帶來(lái)更大價(jià)值。因此他建議,OQmented應(yīng)該專注于研發(fā)感知技術(shù),而不是顯示技術(shù)。
對(duì)比常見(jiàn)的AR/VR 3D傳感方案
Guttag指出,3D傳感的基本目標(biāo)是生成由XYZ三個(gè)維度立體像素組成的點(diǎn)云,并在其中定位現(xiàn)實(shí)世界中的物理對(duì)象。在AR/VR領(lǐng)域,有以下集中常見(jiàn)的3D感知技術(shù):
1,光學(xué)定位(基于可見(jiàn)光或IR)
利用一個(gè)或多個(gè)攝像頭捕捉圖像,并輸入到圖像處理和結(jié)構(gòu)預(yù)測(cè)算法中,來(lái)推算2D/3D定位。如果使用多個(gè)相機(jī)、捕捉多幀圖像,便可以梳理出深度信息。
這是最常見(jiàn)的、且成本最低的3D傳感方式,但只具有一定程度的3D感知能力,尤其是深度感知的分辨率和精度很低,需要大量處理過(guò)程。
此外,還受到攝像頭刷新率、圖像處理延遲的限制,因此監(jiān)測(cè)深度速度慢,通常需要多幀圖像才能捕捉深度。
2,結(jié)構(gòu)光
該方案會(huì)投射一個(gè)或多個(gè)光圖案(常常為紅外光),然后再使用一個(gè)或多個(gè)相機(jī)(或紅外相機(jī))捕捉。通過(guò)處理結(jié)構(gòu)光圖案的變形程度,來(lái)提取3D信息。
微軟Kinect就是基于結(jié)構(gòu)光方案,其基于PrimeSense開(kāi)發(fā)的3D感知技術(shù)(該公司在2013年已經(jīng)被蘋(píng)果收購(gòu)),iPhone、iPad上的Face ID功能也是基于該技術(shù)。
通常,結(jié)構(gòu)光可以很好的識(shí)別深度,而且信息處理時(shí)間短。不過(guò)在掃描過(guò)程中,單結(jié)構(gòu)光模組(例如iPhone X)可能需要移動(dòng),才能獲得準(zhǔn)確的結(jié)構(gòu)。
3,掃描型LiDAR
簡(jiǎn)單來(lái)講,該方案的原理是發(fā)射一束IR光線,通常是激光(或高度聚光的lED),然后檢測(cè)這束光返回傳感器(一個(gè)或多個(gè))所需的時(shí)間,并根據(jù)光速來(lái)計(jì)算距離。在具體應(yīng)用中,它需要在X和Y方向發(fā)射一個(gè)或多個(gè)脈沖光束,以在X和Y軸上定位,而Z軸,也就是深度,則是通過(guò)計(jì)算光返回的時(shí)間來(lái)測(cè)量。
也就是說(shuō),該方案通常會(huì)搭配光束掃描模組,比如由電機(jī)驅(qū)動(dòng)的旋轉(zhuǎn)激光陣列、MEMS掃描鏡、震動(dòng)衍射光柵等等,缺點(diǎn)是掃描過(guò)程比較緩慢,多數(shù)超過(guò)1/60秒。深度測(cè)量上受到如發(fā)光、傳感和測(cè)量光速(大約每納秒30厘米)的整套系統(tǒng)準(zhǔn)確性而存在影響。
由于激光的輸出強(qiáng)度與人眼安全息息相關(guān),因此該傳感方案需要在掃描距離、速度、分辨率、靈敏度、降噪等方面需要作出權(quán)衡。比如Intel RealSense L515就是基于LiDAR方案,掃描頻率約1/30秒,分辨率根據(jù)掃描距離而變化。值得注意的是,初代Quest Pro發(fā)布前,曾計(jì)劃采用Intel RealSense傳感器。
4,固態(tài)、ToF、LiDAR組合
對(duì)比基于狹窄激光束的掃描方案,這個(gè)組合方案結(jié)合了衍射光柵等技術(shù),使用單個(gè)寬光束,或是細(xì)光束陣列來(lái)掃描整個(gè)場(chǎng)景。
此外,該方案配備了測(cè)量X、Y距離的微型ToF傳感器,常用于手機(jī)、AR/VR等設(shè)備中。
在實(shí)際應(yīng)用中,固態(tài)LiDAR的分辨率取決于ToF相機(jī)的分辨率(結(jié)合運(yùn)動(dòng)信息后,可逐漸提高分辨率)。值得注意的是,單個(gè)傳感器通常需要捕捉更多光子,才能實(shí)現(xiàn)傳感,因此需要更長(zhǎng)時(shí)間。也就是說(shuō),該系統(tǒng)檢測(cè)的物體距離越遠(yuǎn),幀速率就越慢,尤其是在AR/VR場(chǎng)景中。比如,HoloLens 2可能需要1秒鐘才能識(shí)別到較遠(yuǎn)的距離。
對(duì)比VoxelSensors和其他主動(dòng)傳感技術(shù)
結(jié)論
對(duì)比上述典型的3D傳感方案,VoxelSensors主要優(yōu)勢(shì)如下:
◎ 初始運(yùn)動(dòng)檢測(cè)更快,約1毫秒(其他方案大約要16-33毫秒);
◎ 對(duì)比簡(jiǎn)單的三角測(cè)量、光速測(cè)量、大規(guī)模立體圖像處理方式,VoxelSensors在深度計(jì)算的精度、速度、功率等方面具有優(yōu)勢(shì);
◎ Switching Pixels靈敏度高,可實(shí)現(xiàn)更高的幀速率、更遠(yuǎn)的掃描距離、對(duì)人眼也更安全。
盡管如此,VoxelSensors當(dāng)前劣勢(shì)也很明顯,就是體積非常大。接下來(lái)還需要進(jìn)一步縮小硬件體積,降低成本,才能比現(xiàn)有的ToF傳感方案更有競(jìng)爭(zhēng)力。參考:VoxelSensor、KG
責(zé)任編輯:Rex_29