Ноември 03, 2023

Text-to-3D AI модел

Публикувано: 03 ноември 2023 г. в 9:21 ч. Актуализирано: 05 ноември 2023 г. в 12:09 ч.

Какво представлява Text-to-3D AI Model?

Text-to-3D AI Model е технология, която превежда текстови описания или инструкции в триизмерни (3D) визуални представяния или модели. Този AI модел може да приема текстови данни, които могат да описват обекти, сцени или концепции, и да ги преобразува в съответен 3D модел. Той работи в пресечната точка на обработката на естествения език (NLP) и компютърната графика, като използва усъвършенствани алгоритми за генериране на 3D съдържание въз основа на предоставения текст.

сроден: 10+ най-добри AI 3D генератора през 2023 г.: Text-to-3D, Image-to-3D, Video-to-3D

Разбиране на Text-to-3D AI модел

Разбирането на Text-to-3D AI модел включва разбиране на основните механизми за това как той интерпретира и преобразува текстови данни в 3D форми и структури. Изисква познаване на НЛП техники, 3D моделиране и специфичната архитектура на модела, използвана за тази задача. Тези AI модели намират приложения в различни области, включително компютърно подпомаган дизайн, виртуална реалност, игри и архитектурна визуализация, позволявайки безпроблемен превод между текстови описания и осезаеми 3D представяния.

presto-player>

Светът на Text-to-3D

На различни платформи изобилстват дискусии относно генерирането на 3D модели от текстови описания или дори единични изображения, обещаващи да отключат цял свят от възможности. Но нека отлепим слоевете и да изследваме какво се крие под повърхността.

Първо и най-важно е да се признае, че 3D не е просто царство, обитавано от сложни космически кораби и умопомрачителни симулации; той също се намира в практическия свят на ежедневните приложения. В основата си 3D включва създаването на мрежи, сложни мрежи, които define структурата на 3D обект, което позволява по-нататъшно манипулиране и взаимодействие. Към момента съществуващите изследователски статии и проекти предлагат методи, които, малко опростено казано, включват приемане на текстови или визуални данни, генериране на множество изображения от различни ъгли и след това използване на комбинация от фотограметрия, изчислителна магия и съществуващи техники за реконструиране на 3D обект от входните данни.

Въпреки че тези подходи са постигнали значителни крачки в подобряването на качеството и точността на текстурата, все още има постоянно предизвикателство, което остава. Остава въпросът, защо имаме нужда от тези 3D модели? Въпреки че намират практически приложения, като например ротационни изображения на продукти за онлайн магазини, пълният потенциал на 3D текстурата и детайлите често се използва недостатъчно, което води до море от видеоклипове и мемета на TikTok.

Как работят AI моделите за преобразуване на текст в 3D?

Text-to-3D AI моделите привличат вниманието заради техния потенциал да превеждат текстови описания в триизмерни (3D) представяния. Но как протича този процес и какви предизвикателства предстоят?

Процесът може да бъде разделен на три основни стъпки. Първо, AI моделът се обучава да разпознава определен клас или тип 3D обект въз основа на даден набор от данни. Той анализира набора от данни и функциите, които define този клас, което му позволява да разбере как са структурирани обектите в тази категория. Тази стъпка поставя основата за бъдещото 3D поколение на AI.

Втората стъпка включва използването на съществуващи 3D модели като референции. Тези модели действат като шаблон за AI, позволявайки му да генерира нови 3D обекти с подобни атрибути и структури. Този подход, базиран на референции, рационализира процеса на генериране и помага да се поддържа последователност в изхода.

Третата стъпка е малко по-специализирана и се отнася предимно за категории като човешки аватари. Тук AI се фокусира върху специфични класове 3D модели, като различни видове глави. Чрез създаване на значителен набор от данни от 3D глави и обучение на AI върху него, разработчиците могат ефективно да генерират реалистични 3D глави. Въпреки че този подход дава висококачествени мрежи, той е ограничен до тесен клас обекти.

Важно е да се отбележи, че тази технология не дава краен, изчистен резултат като статично изображение или видео. Вместо това той генерира междинен 3D актив, който може да бъде допълнително усъвършенстван в постпродукцията или използван в производствена линия. Тази гъвкавост го прави ценен инструмент за различни приложения, от създаване на 3D активи за видео игри до рационализиране на производството на съдържание.

Въпреки обещанието за Text-to-3D AI модели, все още има предизвикателства за преодоляване. Една голяма пречка е необходимостта да се стеснят категориите обекти, които AI може да генерира ефективно. Без този фокус е предизвикателство за AI да произвежда значими резултати.

Освен това има изобилие от налични 3D набори от данни, но не всички от тях са подходящи за използване след производство. Много от тях са твърде шумни и тежки за практически приложения. Този проблем подтикна търсенето на висококачествени набори от данни, които могат да подкрепят разработването на по-добри модели на AI.

Освен това, създаването на Text-to-3D модели, които генерира активи подходящ за конкретни задачи или софтуер е сложен процес. Често изисква специализиран подход, тъй като „параметрите“ или спецификациите варират значително между различните приложения.

Наскоро Luma AI представи най-новото си творение Genie – революционна невронна мрежа, предназначена да завладее света на 3D моделирането. Genie, плодът на въображението на Luma Ai, направи забележителен достъп в сферата на изкуствения интелект и неговите възможности със сигурност ще ви оставят в страхопочитание. Тази иновативна технология, въведена от Luma AI, може безпроблемно да изработва сложни 3D модели за секунди, всичко това от прост текстова подкана. Скоростта и ефективността, с които работи Genie, не са нищо друго освен впечатляващи. Тази новаторска разработка означава значителен скок напред в света на 3D моделирането, генерирано от AI. За разлика от много други услуги, Genie е не само удивително бърз, но и напълно безплатен. Потребителите могат безпроблемно да генерират 3D модели без никакви разходи, което го прави достъпно за всички. Това променя играта и възможностите са неограничени.

В сферата на разработката Text-to-3D не е необичайно да срещнете някои преобладаващи погрешни схващания. За много разработчици концепцията за 3D може да изглежда толкова неуловима, колкото просто облак от точки. Лица, ръбове, върхове, UV, Tris/Quads и други основни елементи понякога се пренебрегват, оставяйки празнина в разбирането. Това е подобно на разглеждането на изображение като нищо повече от решетка от пиксели, без малко внимание към по-сложни аспекти като алфа, Z-канал и композиране. Dall-E 3, видна фигура в тази област, е наясно с прозрачността и алфа, но смирено признава, че алфа каналът остава донякъде загадъчен. Резултатът? Комична комбинация от маневриране в стил Photoshop при опит за премахване на фонове. Ние се задълбочаваме в тези погрешни схващания, за да хвърлим светлина върху основните основи на разработката Text-to-3D.

Последни новини за Text-to-3D AI Model

Google представи TextMesh, нов метод за преобразуване на текст в 3D, който подобрява Stable Diffusion-базирано генериране на текст към 3D модел. Този метод генерира множество ъгли от 2D вход и използва подхода Neural Radiance Fields (NeRF) за създаване на 3D мрежа. TextMesh предлага удобен за потребителя изход, реалистични 3D мрежи и избягва ефектите на високо насищане. SDF рамката усъвършенства текстурата, като подобрява яснотата и избягва пренасищането.
Nvidia стартира Magic3D, софтуер за създаване на текст към 3D съдържание, който преобразува текстови описания в 3D цифрови модели. Софтуерът използва невронна мрежа, обучена на голям набор от данни от 3D модели и може да генерира 3D модели от едно 2D изображение или серия от 2D изображения. Той предлага на потребителите нови начини за контрол на 3D синтеза и може да произвежда висококачествени 3D мрежести модели два пъти по-бързо от DreamFusion.
Google разработи невронна мрежа, наречена DreamFusion, който може да генерира 3D модели от текстови описания, използвайки предварително обучен 2D модел на разпространение на текст към изображение. Този метод преодолява ограниченията на широкомащабните набори от данни и ефективно премахване на шума от 3D архитектури на данни. DreamFusion използва градиентно спускане, за да оптимизира произволно инициализиран 3D модел, което води до повторно осветени 3D модели с висококачествен външен вид, дълбочина и нормали. Системата използва Score Destillation Sampling (SDS) за оптимизиране на пробите във всяко параметрично пространство, като например 3D пространство.

Какво мислиш за Stability AIНовият стабилен 3D модел на текст към 3D и изображение към 3D? pic.twitter.com/PITVzQ0xtM
— Царатустра (@tsarnick) Ноември 1, 2023

Генеративен AI текст към 3D модел + VR/AR + Мрежово виртуално 3D пространство в уеб браузър. Код и онлайн демонстрация на https://t.co/NrX2LlHLsZ #тройки #GenAI #webxr #webgl pic.twitter.com/cY1m3gM2XY
— такахиро (Джон Смит) (@superhoge) Ноември 3, 2023

Можем ли да генерираме 3D сцена с едно 360-градусово изображение? Представяме PERF за справяне с този проблем.

Приложения: 1) Panorama-to-3D; 2) Текст към 3D; 3) Intruct 3D стилизация.

хартия: https://t.co/OSnaV3w5ey
Страница на проекта: https://t.co/f2z8XzBW1f
Код: https://t.co/d4kV4qbp9m pic.twitter.com/TPPRP7VHlR
— Guangcong Wang (@GuangcongW) Октомври 26, 2023

Доста завладяващо Text-to-3D. Подканата беше „модерен лилав диван“. Генерира се за 14 секунди (с 3 други) и GLB се импортира в Blender за още 5 секунди.

Опитайте, като се присъедините към Discord: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
— Андрю Прайс (@andrewpprice) Ноември 2, 2023

«Назад към речника на речника

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов