由Elon Musk創(chuàng)立的人工智能初創(chuàng)公司OpenAI,為流行的DALL-E文本-圖像生成器提供支持,宣布發(fā)布其最新的圖像制作機(jī)器POINT-E,它可以直接從文本提示中生成3D點(diǎn)云。谷歌的DreamFusion等現(xiàn)有系統(tǒng)通常需要數(shù)小時(shí)和GPU來(lái)生成圖像,而Point-E只需要一個(gè)GPU和一兩分鐘。
3D 建模用于各種行業(yè)和應(yīng)用程序?,F(xiàn)代電影大片、視頻游戲、VR 和 AR 的 CGI 效果、NASA 的月球隕石坑測(cè)繪任務(wù)、Google 的遺址保護(hù)項(xiàng)目以及 Meta 的 Metaverse 愿景都取決于 3D 建模功能。然而,創(chuàng)建逼真的 3D 圖像仍然是一個(gè)耗費(fèi)資源和時(shí)間的過(guò)程,盡管 NVIDIA 致力于自動(dòng)化對(duì)象生成和 Epic Game 的 RealityCapture 移動(dòng)應(yīng)用程序,它允許任何擁有 iOS 手機(jī)的人將現(xiàn)實(shí)世界的對(duì)象掃描為 3D 圖像。
文本到圖像系統(tǒng),如 OpenAI 的 DALL-E 2 和 Craiyon、DeepAI、Prisma Lab 的 Lensa 或 HuggingFace 的 Stable Diffusion,近年來(lái)迅速流行、臭名昭著和聲名狼藉。Text-to-3D 是該研究的一個(gè)分支。與類似系統(tǒng)不同,Point-E“利用大量(文本、圖像)對(duì)語(yǔ)料庫(kù),使其能夠遵循多樣化和復(fù)雜的提示,而我們的圖像到 3D 模型是在較小的(圖像、3D)數(shù)據(jù)集上訓(xùn)練的對(duì),”由 Alex Nichol 領(lǐng)導(dǎo)的 OpenAI 研究團(tuán)隊(duì)在 Point·E 中寫(xiě)道:從復(fù)雜提示生成 3D 點(diǎn)云的系統(tǒng), 上周發(fā)布。“為了根據(jù)文本提示生成 3D 對(duì)象,我們首先使用文本到圖像模型對(duì)圖像進(jìn)行采樣,然后根據(jù)采樣圖像對(duì) 3D 對(duì)象進(jìn)行采樣。這兩個(gè)步驟都可以在幾秒鐘內(nèi)完成,并且不需要昂貴的優(yōu)化程序?!?/p>
如果您要輸入文本提示,比如“一只貓?jiān)诔阅鞲缇盹灐?,Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖 3D 渲染。然后,它將通過(guò)一系列擴(kuò)散模型運(yùn)行生成的圖像,以創(chuàng)建初始圖像的 3D、RGB 點(diǎn)云——首先生成粗略的 1,024 點(diǎn)云模型,然后生成更精細(xì)的 4,096 點(diǎn)云模型?!霸趯?shí)踐中,我們假設(shè)圖像包含來(lái)自文本的相關(guān)信息,并且沒(méi)有明確地限制文本上的點(diǎn)云,”研究團(tuán)隊(duì)指出。
這些擴(kuò)散模型分別在“數(shù)百萬(wàn)”個(gè) 3d 模型上進(jìn)行訓(xùn)練,所有模型都轉(zhuǎn)換為標(biāo)準(zhǔn)化格式。“雖然我們的方法在這種評(píng)估中的表現(xiàn)比最先進(jìn)的技術(shù)差,”該團(tuán)隊(duì)承認(rèn),“它在一小部分時(shí)間內(nèi)產(chǎn)生了樣本?!?如果您想親自嘗試一下,OpenAI 已在 Github 上發(fā)布了該項(xiàng)目的開(kāi)源代碼。