首頁>資訊 >
2D圖像轉(zhuǎn)3D僅需5秒,特斯拉的自動駕駛技術(shù)有救了? 2022-03-29 10:36:35  來源:36氪

75年前,寶麗來相機(jī)拍攝出第一張即時照片,是人類第一次以逼真的二維圖像快速捕捉三維世界,具有劃時代的意義。今天,人工智能的研究人員正在進(jìn)行相反的工作,力求在幾秒鐘的時間內(nèi)將靜止圖像的集合變成數(shù)字3D場景。

在本周的春季圖形技術(shù)大會(GTC)上,Nvidia展示了一種新的逆渲染方法(Instant NeRF)——從少量2D圖像中重建3D場景。逆向渲染使用AI來模擬現(xiàn)實世界里的光線,基于Nvidia Research團(tuán)隊開發(fā)的技術(shù),讓渲染過程極大地縮短,幾乎可以說是立即發(fā)生。

事實上,在2D轉(zhuǎn)3D的相關(guān)領(lǐng)域,Nvidia一直在嘗試技術(shù)突破,致力于推出更強(qiáng)大的工具來完成這一過程。但即使是Nvidia這樣的行業(yè)領(lǐng)先公司,即時渲染3D也是一項極為艱難的技術(shù)挑戰(zhàn)。

這更凸顯出Instant NeRF的來之不易。關(guān)于這一成就,谷歌科學(xué)家Jon Barron在推特上表示:18個月前,訓(xùn)練NeRF還需要5小時;2個月前,訓(xùn)練NeRF最快也需要5分鐘;就在近日,基于英偉達(dá)的最新技術(shù),訓(xùn)練NeRF最快也需要5秒!

01InstantNeRF的技術(shù)原理

據(jù)了解,Nvidia能夠取得這一成績的主要原因是采用了一種被稱作多分辨率哈希編碼(Multiresolution Hash Encoding)的技術(shù)。在一篇論文《基于多分辨率哈希編碼的即時神經(jīng)圖形基元》中,Nvidia對這一新技術(shù)做了詳細(xì)說明。

Nvidia表示:“計算機(jī)圖形基元基本上由有關(guān)外觀的各項參數(shù)的數(shù)學(xué)函數(shù)表示。參數(shù)的數(shù)學(xué)計算結(jié)果對于視覺保真度至關(guān)重要?!毖韵轮馐牵琋vidia希望在保持速度和數(shù)學(xué)函數(shù)緊湊度的同時,還能捕獲高頻、局部的圖形細(xì)節(jié)。

為了達(dá)到上述要求,Nvidia采用了多分辨率哈希編碼技術(shù)。據(jù)Nvidia稱,該技術(shù)有著自適應(yīng)性和高效性兩大特性。函數(shù)內(nèi)部只有兩個值需要進(jìn)行配置,分別為參數(shù)的數(shù)量T和所需的最佳分辨率N max。

該方法映射了來自各個角度的2D鏡頭的顏色和光線強(qiáng)度,然后生成數(shù)據(jù),再結(jié)合攝像機(jī)位置的相關(guān)數(shù)據(jù),將這些來自不同位置的圖像連接起來,從而渲染出3D場景。

利用該技術(shù),只需經(jīng)過幾秒鐘的訓(xùn)練,便能在各種任務(wù)中達(dá)到較高的質(zhì)量。

在GTC會議上,Nvidia展示了一張圖片,圖片上是一個穿著像安迪·沃霍爾(Andy Warhol)的模特拿著一個老式的寶麗來相機(jī)。在參與者還沒有反應(yīng)過來的時候,Nvidia迅速把這張圖片轉(zhuǎn)換為了3D效果,引起了現(xiàn)場的陣陣驚嘆。

展示之后,Nvidia的Isha Salian在現(xiàn)場表示:Instant NeRF(中文叫神經(jīng)輻射場)是由加州大學(xué)伯克利分校、Google研究院和加州大學(xué)圣地亞哥分校的研究人員在2020年開始研發(fā)的一項技術(shù)。

該模型是使用Nvidia CUDA工具包庫開發(fā)的。由于它是一個輕量級的神經(jīng)網(wǎng)絡(luò),它可以在單個Nvidia GPU上進(jìn)行訓(xùn)練和運行,在核心卡上運行最快。

幾年來,研究人員一直在改進(jìn)這種從2D到3D的技術(shù),旨在為渲染出的成品增加更多畫面細(xì)節(jié),并提高渲染速度。Nvidia表示,新一代Instant NeRF模型是迄今為止最快的技術(shù)之一,將渲染時間從幾分鐘縮短到“幾乎瞬間”就能完成。

02NeRF的應(yīng)用范圍

Isha Salian進(jìn)一步闡釋說,這種方法可以應(yīng)用于廣泛的領(lǐng)域。它可用于為虛擬世界創(chuàng)建頭像或場景,以3D形式捕獲視頻會議參與者及其環(huán)境,甚至重建3D數(shù)字地圖的場景。

在上述領(lǐng)域,使用傳統(tǒng)方法創(chuàng)建3D場景可能需要數(shù)小時或更長時間,具體取決于可視化的復(fù)雜性和分辨率。而NeRF使用神經(jīng)網(wǎng)絡(luò)系統(tǒng),效率和準(zhǔn)確度大幅度提升。

關(guān)于這一點,Nvidia圖形研究副總裁David Luebke在一份聲明中點出:“Instant NeRF對3D來說可能與數(shù)碼相機(jī)對2D一樣重要。因為在2D攝影中,JPEG壓縮一直是關(guān)鍵的步驟,它大大提高了3D捕獲和共享的速度、易用性和覆蓋范圍?!?/p>

“這項技術(shù)可用于訓(xùn)練機(jī)器人和自動駕駛汽車,通過捕捉現(xiàn)實世界物體的二維圖像或視頻片段來了解它們的大小和形狀。它還可以用于建筑和娛樂業(yè),通過快速生成真實環(huán)境的數(shù)字函數(shù),創(chuàng)作者可以在此基礎(chǔ)上進(jìn)行修改和構(gòu)建?!?/p>

業(yè)內(nèi)人士表示,NeRF在自動駕駛、航空測量等領(lǐng)域也具有廣泛應(yīng)用前景。例如創(chuàng)建大范圍的高保真地圖,為機(jī)器人定位、導(dǎo)航等應(yīng)用提供幫助。此外,自動駕駛系統(tǒng)通常需要重新模擬以前遇到的場景來進(jìn)行安全評估,然而,如果歷史記錄中存在任何的偏差都可能改變車輛的真實軌跡,因此需要沿著路徑進(jìn)行高保真的視圖渲染,這同樣需要NeRF技術(shù)。在自動駕駛中,除了基本的視圖合成,以場景為條件的NeRF還能夠改變環(huán)境照明條件,例如相機(jī)曝光、天氣或一天中不同的時間,從而進(jìn)一步提升模擬駕駛場景的仿真度。

除了NeRF之外,Nvidia的研究人員還在探索如何利用這種輸入編碼技術(shù)來加速多種人工智能挑戰(zhàn),包括強(qiáng)化學(xué)習(xí)、語言翻譯和通用的深度學(xué)習(xí)算法。

關(guān)鍵詞: 駕駛技術(shù)

相關(guān)閱讀:
熱點
圖片 圖片