進銷存系統軟件
真正做到虛擬和真實世界交互需5-10年

日前,因為國際貨代物流軟件英偉達CEO黃仁勛在一場演講中用了14秒的“數字人”視頻引發了廣泛的關注,從而把“數字人”乃至“元宇宙”從專業人士帶入到大眾視野。

澎湃新聞記者日前對話了英偉達三位技術專家,英偉會計出納軟件達中國區高級技術市場經理施澄秋、英偉達高級解決方案架構師宋毅明和英偉達中國區傳媒娛樂行業經理何展(文中統一用英偉達技術專家來稱呼)來講述什么是數字人、什么是元宇宙,元宇宙離我們到底有多遠,元宇宙會帶來那些改變?

英偉達將自己定位為提供基礎底空運貨代軟件層服務架構的。元宇宙概念平臺Omniverse像是一個工具箱,也是一個技術平臺底座,集合了英偉達過去二十多年在AI、HPC和圖形各方面的技術、算法、標準。英偉達希望搭建一個技術平臺,服務藝術家、創造者以及一些C端、B端的用戶。

英偉達技術專家表示,Omniverse為“數字人”引入了最接近“人”的表情、語言系統,相比此前繁瑣的海運貨代軟件技術環節,現在只需要通過基于AI深度神經網絡感知能力的英偉達會話式人工智能系統,把文字變成豐富面部表情,再基于AI實時渲染系統疊加到虛擬人上。英偉達認為,當可以實現數字人和真實人類之間的溝通交互,實現真實和虛擬世界交互時,也就完美契合了元宇宙概念,這個階段要在五到十年后。

英偉達技術專家:在演講中黃仁勛有十幾秒的虛擬分身,ERP軟件可以看作一個數字人。其實可以把數字人概念當成卡通人物或虛擬角色,它已經存在已久。比如虛擬偶像開演唱會,日本動漫行業也推出了好幾個虛擬偶像,形象很豐滿。這些和傳統動畫片人物的最大分別在于,其不僅利用了3D渲染技術讓它看起來更像一個人,還利用了全息技術實現裸眼3D,讓它栩栩如生地站在舞臺上唱歌,這些都是傳統概念當中虛擬人必備的一些元素。

但在NVIDIA看來,虛擬人是虛擬出來的,應該更接近一個“人”,即數字人(Digital Human)。人類和虛擬角色、卡通人物最大的區別是有感情、能夠體會到喜怒哀樂,且能夠把喜怒哀樂實時地通過語言、表情等來體現,這也是虛擬人的精髓。也就是說,虛擬人的外形要栩栩如生,這就要利用英偉達GPU技術來渲染,以實現皮膚、毛發、衣物、配飾符合自然界物理定律。如果這個人物在跳舞的時候項鏈不動、貼在身上,那就不是虛擬人了,而是普通的3D動畫。并且如果十年前推出的虛擬角色和二十年后推出的虛擬角色頭發都一樣,那也不切實際,年輕人、中年人、老年人的毛發系統是不同的,皮膚隨著年齡的增長也是不一樣的。

Omniverse(英偉達推出的以元宇宙概念為基礎虛擬協作和模擬平臺)中的OmniSurface系統能夠渲染不同的材質和表面,針對數字人也有一系列不同的渲染機制。利用GPU渲染可以讓數字人更接近真實的人類,這是數字人的第一個方面。

第二個方面,RTX Render技術,即實時光線追蹤技術。把數字人放到虛擬環境集運轉運軟件中后,環境有光照系統,也有傳統的路徑追蹤系統,虛擬人會和周遭環境進行互動,虛擬人和環境的多次光線迭代也會給整個環境全局照明帶來影響, OmniSurface加上RTX Render可以實現實時的數字人(Digital Human)渲染,以及材料、POV的渲染,從元宇宙概念來看整個虛擬世界,模擬城市、人員、建筑等一系列復雜的生態環境系統都可以通過Omniverse完成,這是數字人和環境的互動。

最重要的是,為數字人引入最接近“人”的喜怒哀樂——表情、語言系統。Audio2Face只需要一段文字,便能夠通過基于AI深度神經網絡感知能力的英偉達會話式人工智能系統,來感知語言下的情緒,把一段文字變成豐富的面部表情,再自動基于AI實時渲染系統疊加到虛擬人上。而以前則要進行配音、口形適配,并考慮當前的語態、語境,進行面部表情分離,重新渲染面部表情,整個環節太繁瑣,時間、人力、物力成本都過于巨大。

現在,結合Audio2Face、OmniSurface和RTX Render能夠實時地把數字人做得更逼真更詳實,不僅是一個虛擬內容,更注重的是用數字化的形式呈現“人類”。在Omniverse加持之下,能夠滿足過去數十年我們對虛擬人的設想,通過當前的軟硬件技術以及網絡云原生的Omniverse平臺,以一站式解決方案把數字人包裝得更逼真、更詳實、更符合自然界的物理定律,無論是人本身的皮膚、毛發,還是身上的配飾、衣物,甚至與周遭的環境、光線的互動,都能更好地實現。

隨著每個數字人周遭環境的放大,以及日后GPU算力、Omniverse平臺能力的不斷提升和版本迭代,我們最終能夠實現元宇宙的構想。

澎湃新聞:英偉達數字人的路線圖是什么?什么時候能做到假人和真人之間的交互?

英偉達技術專家:英偉達在硅谷有專門的數字人研究團隊,有非常清晰的路線圖。

第一階段,要把它做像了,利用CG(計算機動畫)技術和實時光線追蹤渲染技術把它做像了。比如14秒黃仁勛數字人分身,這一階段已經非常成熟到位了,很多平臺都可以做到,只要有非常懂CG藝術的專家和設計者,將相關的動物采集數據、鏡頭,甚至血液流動算法等堆疊起來即可。

第二階段,通過一些要素驅動數字虛擬人?,F在國際上有比較流行的三個要素可以驅動數字虛擬人:一類是視頻,類似短視頻,做一些視頻人物的動作,通過視頻驅動第一階段做出來的很像的數字虛擬人。另一類是“中之人”,這個概念來自日本,現在最貼切的展示方式就是穿動捕服的演員,就像大片拍攝中通過“中之人”驅動數字虛擬人。還有一類就是語音語義,英偉達數字人研究院就選定了語音語義這個要素作為驅動數字人的技術切入點,為什么選它呢?這三類中最容易獲得的就是語音語義,而且很方便,通過一段語音或者一段文字就可以驅動數字虛擬人。

英偉達在這里扮演的是什么角色呢?這里介紹剛剛更名的開源平臺——NVIDIA Riva,是通過算法優化的平臺,其中有一個功能模塊叫做Audio2Face,可以通過一段音頻驅動數字人面部表情的動捕,就像正常人說話一樣,實現口音口型和面部表情、細微動作。所以黃仁勛演講中,別看短短14秒,里面包含了很多技術,其中就有一段Audio2Face,所有的數字通過動捕方式采集好之后,模擬口形、動捕演員的驅動都會涉及到這些要素。

第三階段就比較升華,每個階段都需要兩到三年,我們認為第三階段才是數字虛擬人真正達到應用級別產品化的階段,應該是在五到十年后。

到了第三階段,我們可以實現數字人和真實人類之間的溝通交互,也可以實現數字人和數字人之間的溝通交互,這個也叫做真實和虛擬世界的交互,其實也完美地契合了元宇宙的概念。

澎湃新聞:真正進入虛擬和真人之間的交互的第三階段需要具備哪些條件?

英偉達技術專家:第一階段其實已經很成熟了,已經有很多平臺可以做到。第二階段屬于初期,我們某些客戶合作伙伴都已經做到了初級階段,很多算法已經交付給了市場。大家可以看到很多語音播報員背后的邏輯就是第二階段的技術。我們認為這一階段過兩到三年就會進入成熟期。

再過兩到三年以后就會進入第三階段初始的發展期和萌芽期,五年左右的時間點是一個非常重要的時間點,那個時間段英偉達GPU平臺的算力,包括自己各種算法的迭代,到那個時候也會有非常大的改進和提高。當大家在生態系統當中做數字虛擬人平臺和創作者時候,這三五年一定會有非常大的訓練集驅動走到3.0時代。五年那個時間點才是進入3.0時代真正有可能看到,就是真正能夠用的真實和物理世界交互的數字人應用出現的時間點。

舉個非常有意思的例子,大家知道現在去銀行的網點,柜臺都超不過五十到一百次,銀行現在正在考慮把所有的網點變成數字虛擬人,通過AR技術替換現在人工窗口的營業員。這些應用在各行各業,所有的企業都已經看到了,這就是我們認為數字虛擬人市場需求這么強勁的原因,也是因為客戶和市場驅動我們挑戰新的技術。

澎湃新聞:剛才講到虛擬數字人的技術應用,比如銀行、政務和商務的場合,這里面有那些場景是你們看到可以率先落地的?

英偉達技術專家:有很多職業,可以和大家分享一下英偉達已經做過的數字虛擬人案例。比如數字主持人,就像《飛向月球》第二季,我們重建了央視某紀錄片頻道的著名主持人。然后還有數字導購員、數字4S店銷售、數字導游,包括現在數字的窗口營業員。還有一類非常有意思,如果大家關注Instagram這些國外比較流行的社交媒體網上有數字明星。去年疫情最嚴重的時候,日本曾經做過一個調研,日本市場最受歡迎的一個明星居然是一個數字虛擬人,她在Twitter上的粉絲高達數百萬,所以營銷IP的公司相當于打造了一個數字模擬器。包括大家看到電影《雙子殺手》也是一種數字人的體驗形式,還有國內的數字王國“鄧麗君” “張國榮”的數字IP應用,我們看到了很多很多,就像雨后春筍一般出來。流媒體平臺上面也是越來越多。

澎湃新聞:Omniverse是英偉達推出的全球首個為元宇宙建立提供基礎的協作平臺,你們推出Omniverse的初衷和契機是什么?

英偉達技術專家:今年并不是Omniverse的元年,英偉達在2019年就提出了Omniverse,并且已經為這個平臺布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技術要素包括AI、區塊鏈、VR/AR/MR等XR技術、可視化的渲染技術等。這些方面的技術在最近幾年處于集中爆發期,并且現在我們進入了5G時代,這為真實世界和數字虛擬世界的交互提供了足夠的帶寬以及交互的技術基礎。這些因素促進1992年提出的元宇宙概念如今成為了一個火熱的話題。英偉達對這些技術都有所涉及,所以在此契機下提出了英偉達所理解的元宇宙概念平臺——Omniverse。我個人認為它像是英偉達為創建元宇宙數字化虛擬空間的奇點,也可稱之為技術平臺底座,集合了英偉達過去二十多年在AI、HPC和圖形各方面的技術、算法、標準,又像是一個工具箱,大家在創造數字化虛擬空間時,需要螺絲就可以在這里拿一個螺絲,需要一個剪刀就拿一個剪刀。英偉達希望搭建一個技術平臺,服務藝術家、創造者以及一些C端、B端的用戶,以實現元宇宙。