Text-to-3D:谷歌開發了一種神經網絡,可以根據文本描述生成 3D 模型
簡單來說
谷歌創建了一個 神經網絡 能夠根據文本描述創建 3D 模型。 最好的部分是最困難的方面甚至不需要教。 Imagen 被用作 Text-to-3D 的基礎。
你應該知道什麼 夢幻融合?
在數十億個圖像-文本對上訓練的擴散模型導致了文本到圖像合成的最新進展。 將這種方法應用於 3D 合成將需要標記 3D 資產的大規模數據集以及高效的去噪 3D 數據架構,這兩者目前都不可用。 在本文中,我們通過使用預訓練的 3D 執行文本到 2D 合成來克服這些限制 文本到圖像擴散 模型。 我們提出了基於機率密度蒸餾的損失,該損失允許將二維擴散模型用作最佳化參數的先驗 圖片產生器。 利用這種損失,我們使用梯度下降來優化隨機初始化的 3D 模型(神經輻射場或 NeRF),使其從隨機角度進行的 2D 渲染具有最小的損失。
生成的指定文本的 3D 模型可以從任何角度查看,使用可變照明進行照明,並合成到任何 3D 環境中。 它的方法不需要 3D 訓練數據,也不需要改變 圖像擴散模型,說明使用預先訓練的圖像擴散模型的功效。
從文本生成 3D 的示例
將物體放在一起形成場景
它如何運作?
DreamFusion 使用 Imagen 文本到圖像生成模型優化基於字幕的 3D 場景。 它建議採用評分蒸餾採樣(SDS),其中涉及優化損失函數以從擴散模型中生成樣本。 只要我們能夠以不同的方式映射回圖像,SDS 就使我們能夠在任何參數空間(例如 3D 空間)中優化樣本。 到 defi在這種可微映射中,它採用類似於神經輻射場或 NeRF 的 3D 場景參數化。 SDS 單獨創建了一個還過得去的場景外觀,但 DreamFusion 通過額外的正則化器和優化技術增強了幾何形狀。 生成的經過訓練的 NeRF 是連貫的,具有出色的法線、表面幾何形狀和深度,並且可以使用朗伯著色模型重新照亮。
閱讀相關文章:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。