24 stycznia 2023 r.

GLIGEN: nowy zamrożony model generowania tekstu na obraz z ramką ograniczającą

Opublikowano: 24 stycznia 2023 o 5:00 Zaktualizowano: 21 marca 2024 o 11:40

Edytowane i sprawdzone pod kątem faktów: 24 stycznia 2023 o 5:00

W skrócie

GLIGEN, czyli Grounded-Language-to-Image Generation, to nowatorska technika, która opiera się na obecnych, wstępnie wytrenowanych modelach dyfuzji i je rozszerza.

Dzięki wprowadzaniu warunków napisów i obwiedni model GLIGEN generuje uziemiony text2img w otwartym świecie.

GLIGEN może generować różnorodne obiekty w określonych miejscach i stylach, wykorzystując wiedzę ze wstępnie wytrenowanego modelu text2img.

GLIGEN może również uziemić ludzkie punkty kluczowe podczas generowania tekstu na obrazy.

Wielkoskalowe modele dyfuzji tekstu na obraz przeszły długą drogę. Jednak obecną praktyką jest poleganie wyłącznie na wprowadzaniu tekstu, co może ograniczać możliwości sterowania. GLIGEN, czyli Grounded-Language-to-Image Generation, to nowatorska technika, która opiera się na obecnych, wstępnie wyszkolonych modelach dyfuzji tekstu na obraz i rozszerza je, umożliwiając ich warunkowanie na podstawie danych wejściowych uziemienia.

GLIGEN: nowy zamrożony model generowania tekstu na obraz z ramką ograniczającą

Aby zachować obszerną wiedzę koncepcyjną wstępnie wytrenowanego modelu, programiści zamrażają wszystkie jego wagi i pompują informacje o uziemieniu do nowych warstw, które można trenować, za pomocą kontrolowanego procesu. Dzięki wprowadzaniu warunków napisów i ramek ograniczających model GLIGEN generuje ugruntowany tekst na obraz w otwartym świecie, a zdolność uziemienia skutecznie uogólnia się na nowe konfiguracje i koncepcje przestrzenne.

Zapoznaj się z próbny tutaj.

GLIGEN opiera się na istniejących, wstępnie wytrenowanych modelach dyfuzji, których oryginalne wagi zostały zamrożone, aby zachować ogromne ilości wstępnie wytrenowanej wiedzy.

GLIGEN opiera się na istniejących wstępnie przeszkolonych modele dyfuzyjne, których oryginalne wagi zostały zamrożone, aby zachować ogromne ilości wcześniej wytrenowanej wiedzy.
W każdym bloku transformatora tworzona jest nowa, dająca się trenować warstwa bramkowanej samouwagi, która absorbuje dodatkowe wejście uziemienia.
Każdy token uziemienia ma dwa rodzaje informacji: informacje semantyczne o unieruchomionym obiekcie (zakodowany tekst lub obraz) oraz informacje o położeniu przestrzennym (zakodowana ramka graniczna lub punkty kluczowe).

Podobne artykuły: VToonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo

Nowo dodane modulowane warstwy są stale wstępnie szkolone na podstawie ogromnych danych uziemiających (obraz-pole tekstowe), co jest bardziej opłacalne niż alternatywne metody korzystania z wstępnie wytrenowanego modelu dyfuzji, takie jak dostrajanie pełnego modelu. Podobnie jak w przypadku klocków Lego, różne przeszkolone warstwy można podłączać i odłączać, aby umożliwić różne nowe możliwości. — Nowo dodane modulowane warstwy są stale wstępnie szkolone na podstawie ogromnych danych uziemiających (pole tekstowe obrazu). Jest to bardziej opłacalne niż alternatywne metody korzystania z wcześniej przeszkolonego model dyfuzyjny, takie jak dostrajanie pełnego modelu. Podobnie jak w przypadku Lego, różne przeszkolone warstwy można podłączać i odłączać, aby zapewnić różne nowe możliwości.

GLIGEN obsługuje zaplanowane próbkowanie w procesie dyfuzji w celu wnioskowania, gdzie model może dynamicznie wybrać użycie tokenów uziemiających (poprzez dodanie nowej warstwy) lub oryginalny model dyfuzji z dobrym wyprzedzeniem (poprzez wyrzucenie nowej warstwy), a tym samym zrównoważyć jakość generowania i zdolność uziemienia.

GLIGEN może generować różnorodne obiekty w określonych miejscach i stylach, wykorzystując wiedzę ze wstępnie wytrenowanego modelu text2img.

Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby

GLIGEN można również trenować za pomocą zdjęć referencyjnych. Górny rząd sugeruje, że zdjęcia referencyjne, oprócz pisemnych opisów, mogą dostarczyć bardziej szczegółowych informacji, takich jak styl i kształt samochodu. Drugi rząd pokazuje, że obraz referencyjny może być również wykorzystany jako obraz stylu, w którym to przypadku odkrywamy, że wystarczy umieścić go w rogu lub krawędzi obrazu.

GLIGEN, podobnie jak inne modele dyfuzyjne, może wykonać uziemione malowanie obrazu, które może generować obiekty ściśle pasujące do dostarczonych ramek ograniczających.

GLIGEN może również uziemić ludzkie punkty kluczowe podczas generowania tekstu na obrazy. — GLIGEN może również uziemić kluczowe punkty człowieka generowanie tekstu na obrazy.

Przeczytaj więcej o sztucznej inteligencji:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow