GLIGEN: nowy zamrożony model generowania tekstu na obraz z ramką ograniczającą
W skrócie
GLIGEN, czyli Grounded-Language-to-Image Generation, to nowatorska technika, która opiera się na obecnych, wstępnie wytrenowanych modelach dyfuzji i je rozszerza.
Dzięki wprowadzaniu warunków napisów i obwiedni model GLIGEN generuje uziemiony text2img w otwartym świecie.
GLIGEN może generować różnorodne obiekty w określonych miejscach i stylach, wykorzystując wiedzę ze wstępnie wytrenowanego modelu text2img.
GLIGEN może również uziemić ludzkie punkty kluczowe podczas generowania tekstu na obrazy.
Wielkoskalowe modele dyfuzji tekstu na obraz przeszły długą drogę. Jednak obecną praktyką jest poleganie wyłącznie na wprowadzaniu tekstu, co może ograniczać możliwości sterowania. GLIGEN, czyli Grounded-Language-to-Image Generation, to nowatorska technika, która opiera się na obecnych, wstępnie wyszkolonych modelach dyfuzji tekstu na obraz i rozszerza je, umożliwiając ich warunkowanie na podstawie danych wejściowych uziemienia.
Aby zachować obszerną wiedzę koncepcyjną wstępnie wytrenowanego modelu, programiści zamrażają wszystkie jego wagi i pompują informacje o uziemieniu do nowych warstw, które można trenować, za pomocą kontrolowanego procesu. Dzięki wprowadzaniu warunków napisów i ramek ograniczających model GLIGEN generuje ugruntowany tekst na obraz w otwartym świecie, a zdolność uziemienia skutecznie uogólnia się na nowe konfiguracje i koncepcje przestrzenne.
Zapoznaj się z próbny tutaj.
- GLIGEN opiera się na istniejących wstępnie przeszkolonych modele dyfuzyjne, których oryginalne wagi zostały zamrożone, aby zachować ogromne ilości wcześniej wytrenowanej wiedzy.
- W każdym bloku transformatora tworzona jest nowa, dająca się trenować warstwa bramkowanej samouwagi, która absorbuje dodatkowe wejście uziemienia.
- Każdy token uziemienia ma dwa rodzaje informacji: informacje semantyczne o unieruchomionym obiekcie (zakodowany tekst lub obraz) oraz informacje o położeniu przestrzennym (zakodowana ramka graniczna lub punkty kluczowe).
Podobne artykuły: VToonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo |
Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby |
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.