雖然是新技術,但是已經有人在用了。
5月29日,在台北舉辦的2023年台北國際電腦展(Computex)上,英偉達首席執行官黃仁勛開始了他長達兩小時的主題演講。
作為演講前半部分用於吸引觀眾眼球的重頭戲,黃仁勛公布並介紹了英偉達和合作夥伴Convai共同構建的新AI技術:Omniverse Avatar Cloud Engine(以下簡稱ACE)。
ACE是一套基於生成式AI技術的模型代工服務,能夠為遊戲中的語音、對話和角色動畫提供AI模型,或者說,給NPC添加實時交互的功能。「……我們用AI來渲染場景,還能用它讓場景變得栩栩如生。」
黃仁勛還播放了一段代號「Kairos」的演示影片。這段影片運用虛幻5引擎和光線追蹤技術,渲染了一間賽博風格的拉麵店,由玩家操控的Kai來到店裡,和AI驅動的NPC老闆Jin實時交流。他們的對話翻譯如下:
Kai:嗨,Jin,你還好嗎?
Jin:不幸的是,不太好。
Kai:怎麼了?
Jin:我擔心這附近的犯罪活動。最近情況變得很糟。我的拉麵店也陷入了交火之中。
Kai:我能幫忙嗎?
Jin:如果你想為此做些什麼,我聽說了這樣的傳言。Kumon Aoki,那個強大的犯罪頭目,正在城市裡製造各種各樣的混亂。他可能是這些暴力行為的根源。
Kai:我會跟他談談。我在哪裡能找到他?
Jin:我聽說他常去城東邊的地下搏擊俱樂部。試試去那裡吧。
Kai:OK,我會過去的。
Jin:小心點,Kai。
搞這一大段對話的目的,就是讓玩家接了個支線任務,找到這個Kumon Aoki,還拉麵店一片清淨。
Jin的對話都是AI「即興創作」的產物,只是影片中的對話流程乏善可陳,和之前的遊戲中NPC照本宣科般的對話似乎沒什麼區別。Jin的確在結合世界觀作出發言,但玩家的問題問得太過簡單,我們無從得知英偉達AI的實際性能及應變能力。
不過,Jin對自然語言實時做出的面部反應,或者說口型,完全對得上他的發言,光這一點就足以技驚四座。
在ACE支持下的Jin「栩栩如生」,是英偉達的三種技術相輔相成的結果。
首先是NeMo,根據預先輸入的知識和角色背景故事,構建、定製並部署語言模型,是NPC的大腦。
然後是Riva,用於識別玩家的語音、實現文本和語音互轉,讓NPC給出實時語音對話,是NPC的耳朵和嘴。
最後是Audio2Face,即時創建匹配語音的NPC面部動畫,並直接添加到Epic的虛幻5引擎或其他工具中,可謂是NPC的面部神經。
圖源英偉達官網
Nvidia GeForce平台副總裁傑森·保羅(Jason Paul)在展前簡報中表示,ACE可以一次用於多名AI角色,理論上甚至可以讓NPC之間相互交談。但他承認,他還沒有看到過關於這方面的實際測試。
ACE是個代工服務,是英偉達向遊戲開發人員出售的技術,旨在「讓幾乎所有開發人員都能以經濟高效的方式設計由AI控制的NPC」。
當然,構成ACE的三項技術並非缺一不可,單買也沒問題。據英偉達的新聞稿,一批遊戲開發商和初創公司,已經在其工作流程中使用且僅使用了英偉達的Audio2Face技術。
例如,烏克蘭遊戲開發商GSC Game World,就準備在由虛幻5引擎打造的《浩劫殺陣2:切爾諾貝利之心》中試用Audio2Face,讓NPC的口型對得上配音演員的聲音。
《浩劫殺陣2》開發中畫面
老黃的演講能夠吸引多少遊戲開發者買下ACE、又有多少開發者會因為這項技術革新受益或失業,暫且都是未知數。不過有一點可以確定:用於實現ACE效果的計算和渲染,需要更強大的顯卡性能支撐。但願英偉達在將來推出的新顯卡,價格不會漲得太狠。