Nobyembre 03, 2023

Text-to-3D AI Model

Na-publish: Nobyembre 03, 2023 nang 9:21 am Na-update: Nobyembre 05, 2023 nang 12:09 pm

Ano ang Text-to-3D AI Model?

Ang Text-to-3D AI Model ay isang teknolohiyang nagsasalin ng mga textual na paglalarawan o tagubilin sa three-dimensional (3D) na visual na representasyon o modelo. Ang AI model na ito ay maaaring kumuha ng textual input, na maaaring maglarawan ng mga bagay, eksena, o konsepto, at i-convert ito sa isang kaukulang modelong 3D. Gumagana ito sa intersection ng natural language processing (NLP) at computer graphics, gamit ang mga advanced na algorithm upang makabuo ng 3D na nilalaman batay sa ibinigay na teksto.

kaugnay: 10+ Pinakamahusay na AI 3D Generator sa 2023: Text-to-3D, Image-to-3D, Video-to-3D

Pag-unawa sa Text-to-3D AI Model

Ang pag-unawa sa isang Text-to-3D AI Model ay kinabibilangan ng pag-unawa sa mga pinagbabatayan na mekanismo kung paano ito binibigyang-kahulugan at kino-convert ang data ng text sa mga 3D na hugis at istruktura. Nangangailangan ito ng kaalaman sa mga diskarte sa NLP, pagmomodelo ng 3D, at partikular na arkitektura ng modelo na ginamit para sa gawaing ito. Ang mga AI model na ito ay nakakahanap ng mga application sa iba't ibang larangan, kabilang ang computer-aided na disenyo, virtual reality, gaming, at architectural visualization, na nagbibigay-daan sa isang tuluy-tuloy na pagsasalin sa pagitan ng mga textual na paglalarawan at nasasalat na 3D na representasyon.

presto-player>

Mundo ng Text-to-3D

Sa iba't ibang mga platform, dumarami ang mga talakayan tungkol sa pagbuo ng mga modelong 3D mula sa mga paglalarawan ng teksto o kahit na mga solong larawan, na nangangakong mag-unlock ng mundo ng mga posibilidad. Ngunit buksan natin ang mga layer at tuklasin kung ano ang nasa ilalim ng ibabaw.

Una at pangunahin, mahalagang kilalanin na ang 3D ay hindi lamang isang kaharian na tinitirhan ng mga kumplikadong spacecraft at nakakahumaling na simulation; naninirahan din ito sa praktikal na mundo ng pang-araw-araw na aplikasyon. Sa kaibuturan nito, ang 3D ay kinabibilangan ng paglikha ng mga meshes, masalimuot na mga network na defiang istraktura ng isang 3D na bagay, na nagbibigay-daan sa karagdagang pagmamanipula at pakikipag-ugnayan. Sa ngayon, ang umiiral na mga papeles sa pananaliksik at proyekto ay nag-aalok ng mga pamamaraan na, medyo simple lang, ay nagsasangkot ng pagkuha ng textual o visual na input, pagbuo ng maraming larawan mula sa iba't ibang anggulo, at pagkatapos ay gumagamit ng isang pagsasanib ng photogrammetry, computational wizardry, at umiiral na mga diskarte upang muling buuin ang isang 3D object mula sa input data.

Bagama't ang mga diskarteng ito ay gumawa ng mga makabuluhang hakbang sa pagpapabuti ng kalidad at katumpakan ng texture, mayroon pa ring patuloy na hamon na nananatili. Ang tanong ay nananatili, bakit kailangan natin ang mga modelong 3D na ito? Habang nakakahanap sila ng mga praktikal na aplikasyon, tulad ng pag-ikot ng mga larawan ng produkto para sa mga online na tindahan, ang buong potensyal ng 3D texture at detalye ay kadalasang hindi nagagamit, na nagreresulta sa isang dagat ng mga TikTok na video at meme.

Paano Gumagana ang Text-to-3D AI Models?

Ang mga text-to-3D AI na modelo ay nakakakuha ng pansin para sa kanilang potensyal na isalin ang mga textual na paglalarawan sa three-dimensional (3D) na representasyon. Ngunit paano gumagana ang prosesong ito, at anong mga hamon ang naghihintay sa hinaharap?

Ang proseso ay maaaring nahahati sa tatlong pangunahing hakbang. Una, ang modelo ng AI ay sinanay upang makilala ang isang partikular na klase o uri ng 3D object batay sa isang ibinigay na dataset. Sinusuri nito ang dataset at ang mga tampok na iyon defisa klase na iyon, na nagbibigay-daan dito na maunawaan kung paano nakaayos ang mga bagay sa kategoryang iyon. Ang hakbang na ito ay nagtatakda ng pundasyon para sa hinaharap na 3D generation ng AI.

Kasama sa ikalawang hakbang ang paggamit ng mga kasalukuyang modelong 3D bilang mga sanggunian. Ang mga modelong ito ay nagsisilbing template para sa AI, na nagbibigay-daan dito na makabuo ng mga bagong 3D na bagay na may katulad na mga katangian at istruktura. Ang diskarteng ito na nakabatay sa sanggunian ay nag-streamline sa proseso ng pagbuo at tumutulong na mapanatili ang pare-pareho sa output.

Ang ikatlong hakbang ay medyo mas dalubhasa at pangunahing nalalapat sa mga kategorya tulad ng mga avatar ng tao. Dito, nakatuon ang AI sa mga partikular na klase ng mga modelong 3D, gaya ng iba't ibang uri ng mga ulo. Sa pamamagitan ng paggawa ng malaking dataset ng mga 3D head at pagsasanay sa AI dito, ang mga developer ay makakabuo ng mga makatotohanang 3D head nang mahusay. Bagama't ang diskarteng ito ay nagbubunga ng mataas na kalidad na mga mesh, ito ay limitado sa isang makitid na klase ng mga bagay.

Mahalagang tandaan na ang teknolohiyang ito ay hindi gumagawa ng pangwakas, pinakintab na resulta tulad ng isang static na larawan o video. Sa halip, ito ay bumubuo ng isang intermediate na 3D asset na maaaring higit pang pinuhin sa post-production o magamit sa isang pipeline ng produksyon. Ang versatility na ito ay ginagawa itong isang mahalagang tool para sa iba't ibang application, mula sa paggawa ng mga 3D asset para sa mga video game hanggang sa pag-streamline ng paggawa ng content.

Sa kabila ng pangako ng Text-to-3D AI na mga modelo, mayroon pa ring mga hamon na dapat lampasan. Ang isang malaking balakid ay ang pangangailangang paliitin ang mga kategorya ng mga bagay na mabisang mabubuo ng AI. Kung wala ang pokus na ito, mahirap para sa AI na makagawa ng mga makabuluhang resulta.

Bukod pa rito, mayroong napakaraming 3D dataset na magagamit, ngunit hindi lahat ng mga ito ay angkop para sa paggamit pagkatapos ng produksyon. Marami ang masyadong maingay at mabigat para sa mga praktikal na aplikasyon. Ang isyung ito ay nag-udyok ng paghahanap para sa mga de-kalidad na dataset na maaaring suportahan ang pagbuo ng mas mahuhusay na modelo ng AI.

Higit pa rito, ang paglikha ng Text-to-3D na mga modelo na bumuo ng mga asset angkop para sa mga partikular na gawain o software ay isang kumplikadong proseso. Ito ay madalas na nangangailangan ng isang espesyal na diskarte, dahil ang "mga parameter" o mga detalye ay malaki ang pagkakaiba sa pagitan ng iba't ibang mga application.

Kamakailan lamang, Inihayag ng Luma AI ang pinakabagong paglikha nito, ang Genie – isang rebolusyonaryong neural network na idinisenyo upang kunin ang 3D modelling world sa pamamagitan ng bagyo. Ang Genie, ang brainchild ng Luma Ai, ay gumawa ng isang kahanga-hangang pagpasok sa AI domain, at ang mga kakayahan nito ay tiyak na mag-iiwan sa iyo sa pagkamangha. Ang makabagong teknolohiyang ito, na ipinakilala ng Luma AI, ay madaling makagawa ng masalimuot na mga modelong 3D sa loob ng ilang segundo, lahat mula sa isang simpleng prompt ng text. Ang bilis at kahusayan kung saan nagpapatakbo ang Genie ay hindi kahanga-hanga. Ang makabagong pag-unlad na ito ay nagpapahiwatig ng isang makabuluhang hakbang pasulong sa mundo ng AI-generated 3D modeling. Kabaligtaran sa maraming iba pang mga serbisyo, ang Genie ay hindi lamang kahanga-hangang mabilis ngunit ganap ding libre. Ang mga user ay maaaring walang putol na makabuo ng mga 3D na modelo nang walang anumang gastos, na ginagawa itong naa-access sa lahat. Ito ay isang game-changer, at ang mga posibilidad ay walang limitasyon.

Sa larangan ng pag-unlad ng Text-to-3D, karaniwan nang makatagpo ng ilang umiiral na maling kuru-kuro. Para sa maraming mga developer, ang konsepto ng 3D ay maaaring mukhang mahirap hulihin bilang isang lamang ulap ng mga puntos. Ang mga Mukha, Gilid, Vertices, UV, Tris/Quads, at iba pang pangunahing elemento ay minsang napapansin, na nag-iiwan ng puwang sa pag-unawa. Ito ay katulad ng pagsasaalang-alang sa isang imahe bilang isang grid ng mga pixel, na may maliit na pagsasaalang-alang para sa mas masalimuot na aspeto tulad ng Alpha, Z-channel, at compositing. Ang Dall-E 3, isang kilalang tao sa larangang ito, ay alam ang transparency at alpha ngunit mapagpakumbabang inamin na ang alpha channel ay nananatiling medyo misteryoso. Ang resulta? Isang nakakatawang halo ng Photoshop-style maneuvering kapag sinusubukang gawin alisin ang mga background. Sinisiyasat namin ang mga maling kuru-kuro na ito upang maipaliwanag ang mga pangunahing pundasyon ng pag-unlad ng Text-to-3D.

Pinakabagong Balita tungkol sa Text-to-3D AI Model

Ipinakilala ng Google TextMesh, isang bagong text-to-3D na paraan na nagpapabuti Stable Diffusion-based na text-to-3D na pagbuo ng modelo. Ang pamamaraang ito ay bumubuo ng maraming anggulo mula sa 2D input at ginagamit ang Neural Radiance Fields (NeRF) na diskarte upang lumikha ng 3D mesh. Nag-aalok ang TextMesh ng user-friendly na output, makatotohanang 3D meshes, at iniiwasan ang mataas na saturation effect. Pinopino ng SDF framework ang texture, pinapahusay ang kalinawan at pag-iwas sa sobrang saturation.
Inilunsad ang Nvidia Magic3D, isang text-to-3D content creator software na nagko-convert ng mga paglalarawan ng teksto sa mga 3D na digital na modelo. Gumagamit ang software ng neural network na sinanay sa isang malaking dataset ng mga 3D na modelo at maaaring makabuo ng mga 3D na modelo mula sa isang 2D na imahe o isang serye ng mga 2D na larawan. Nag-aalok ito sa mga user ng mga bagong paraan upang makontrol ang 3D synthesis at makakagawa ng mga de-kalidad na 3D mesh na modelo nang dalawang beses nang mas mabilis kaysa sa DreamFusion.
Ang Google ay bumuo ng isang neural network na tinatawag na DreamFusion, na maaaring bumuo ng mga 3D na modelo mula sa mga paglalarawan ng teksto gamit ang isang pretrained na 2D text-to-image diffusion model. Nalalampasan ng pamamaraang ito ang mga limitasyon ng malalaking dataset at mahusay na pagtanggal ng mga 3D na arkitektura ng data. Gumagamit ang DreamFusion ng gradient descent upang i-optimize ang isang random na nasimulan na 3D na modelo, na nagreresulta sa mga relightable na 3D na modelo na may mataas na fidelity na hitsura, depth, at normal. Gumagamit ang system ng Score Distillation Sampling (SDS) para i-optimize ang mga sample sa anumang parameter space, gaya ng 3D space.

Ano sa tingin mo Stability AIang bagong Stable 3D text-to-3D at image-to-3D na modelo? pic.twitter.com/PITVzQ0xtM
— Tsarathustra (@tsarnick) Nobyembre 1, 2023

Generative AI Text to 3D Model + VR/AR + Networked virtual 3D space sa web browser. Code at online na demo sa https://t.co/NrX2LlHLsZ #threejs #GenAI #webxr #webgl pic.twitter.com/cY1m3gM2XY
— takahiro(John Smith) (@superhoge) Nobyembre 3, 2023

Maaari ba tayong bumuo ng isang 3D na eksena na may isang solong 360-degree na larawan? Ipinakita namin ang PERF upang harapin ang problemang ito.

Mga Application: 1) Panorama-to-3D; 2) Text-to-3D; 3) Ituro ang 3D stylization.

Papel: https://t.co/OSnaV3w5ey
Pahina ng proyekto: https://t.co/f2z8XzBW1f
code: https://t.co/d4kV4qbp9m pic.twitter.com/TPRPP7VHlR
— Guangcong Wang (@GuangcongW) Oktubre 26, 2023

Medyo nakakahimok na Text-to-3D. Prompt ay "modernong purple sofa". Nabuo sa loob ng 14 na segundo (kasama ang 3 iba pa) at ang GLB ay nag-import sa Blender sa loob ng isa pang 5 segundo.

Subukan sa pamamagitan ng pagsali sa Discord: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
— Andrew Price (@andrewpprice) Nobyembre 2, 2023

«Bumalik sa Glossary Index

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Text-to-3D AI Model

Ano ang Text-to-3D AI Model?

Pag-unawa sa Text-to-3D AI Model

Mundo ng Text-to-3D

Paano Gumagana ang Text-to-3D AI Models?

Pinakabagong Balita tungkol sa Text-to-3D AI Model

Pagtanggi sa pananagutan

Tungkol sa Ang May-akda

Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13

Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala

Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points

Web3 at Crypto Events noong Mayo 2024: Paggalugad ng mga Bagong Teknolohiya at Umuusbong na Trend sa Blockchain at DeFi

Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13

Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala

Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points

Web3 at Crypto Events noong Mayo 2024: Paggalugad ng mga Bagong Teknolohiya at Umuusbong na Trend sa Blockchain at DeFi

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Text-to-3D AI Model

Ano ang Text-to-3D AI Model?

Pag-unawa sa Text-to-3D AI Model

Mundo ng Text-to-3D

Paano Gumagana ang Text-to-3D AI Models?

Pinakabagong Balita tungkol sa Text-to-3D AI Model

Pinakabagong Mga Social na Post tungkol sa Text-to-3D AI Model

Pagtanggi sa pananagutan

Tungkol sa Ang May-akda