Nowy model zamiany tekstu na obraz GigaGAN może generować obrazy 4K w 3.66 s
W skrócie
Naukowcy opracowali nowy model zamiany tekstu na obraz o nazwie GigaGAN, który może generować obrazy 4K w 3.66 sekundy.
Opiera się na strukturze GAN (generative adversarial network), która jest rodzajem sieci neuronowe które mogą nauczyć się generować dane podobne do zestawu danych szkoleniowych. GigaGAN jest w stanie wygenerować obrazy o rozdzielczości 512 pikseli w ciągu 0.13 sekundy, 10 razy szybciej niż poprzedni najnowocześniejszy model, i ma rozproszoną, ciągłą i kontrolowaną przestrzeń ukrytą.
Może być również używany do trenowania wydajnego upsamplera o wyższej jakości.
Naukowcy opracowali nowy model zamiany tekstu na obraz, tzw GigaGAN które mogą generować Obrazy 4K w 3.66 sekundy. Jest to znaczne ulepszenie w stosunku do istniejących modeli zamiany tekstu na obraz, w przypadku których wygenerowanie pojedynczego obrazu może zająć minuty, a nawet godziny.
GigaGAN opiera się na strukturze GAN (generative adversarial network), która jest rodzajem sieci neuronowej, która może nauczyć się generować dane podobne do zestawu danych szkoleniowych. Sieci GAN zostały wykorzystane do generowania realistycznych obrazów twarzy, krajobrazów, a nawet zdjęć Street View.
Nowy model został przeszkolony na zbiorze danych zawierającym 1 miliard obrazów, czyli o rzędy wielkości większym niż zestawy danych używane do trenowania wcześniejszych modeli zamiany tekstu na obraz. W rezultacie GigaGAN jest w stanie wygenerować obrazy o rozdzielczości 512 pikseli w ciągu 0.13 sekundy, czyli ponad 10 razy szybciej niż poprzedni najnowocześniejszy model zamiany tekstu na obraz.
Ponadto GigaGAN zapewnia rozplątaną, ciągłą i kontrolowaną ukrytą przestrzeń. Oznacza to, że GigaGAN może generować obrazy, które mają wiele różnych stylów, a generowane obrazy można do pewnego stopnia kontrolować. Na przykład GigaGAN może generować obrazy, które zachowują układ wprowadzanego tekstu, co jest ważne dla aplikacji, na przykład podczas generowania obrazów układów produktów z opisów tekstowych.
GigaGAN może być również wykorzystany do trenowania wydajnego upsamplera o wyższej jakości. Można to zastosować do rzeczywistych obrazów lub wyjść innych Modele zamiany tekstu na obraz.
Gałąź kodowania tekstu, sieć mapowania stylów, wieloskalowa sieć syntezy oraz stabilna uwaga i adaptacyjny wybór jądra są częścią generatora GigaGAN. Deweloperzy rozpoczynają gałąź kodowania tekstu od wyodrębnienia osadzonego tekstu za pomocą wstępnie wytrenowanego modelu CLIP i wyuczonych warstw uwagi T. Podobnie jak StylGAN, osadzanie jest przekazywane do sieci mapowania stylów M, która generuje wektor stylu w. Aby wygenerować piramidę obrazu, sieć syntezy wykorzystuje teraz kod stylu jako modulację, a osadzanie tekstu jako uwagę. Ponadto programiści wprowadzają adaptacyjny wybór jądra, aby wybrać jądro splotu w sposób adaptacyjny w oparciu o warunkowanie tekstu wejściowego.
Dyskryminator, podobnie jak generator, ma dwie gałęzie do przetwarzania warunkowania obrazu i tekstu. Gałąź tekstowa, podobnie jak generator, przetwarza tekst. Gałąź obrazu otrzymuje piramidę obrazu i ma za zadanie dokonać niezależnych prognoz dla każdej skali obrazu. Ponadto prognozy są dokonywane we wszystkich kolejnych skalach warstw próbkowania w dół. Dodatkowe straty są również wykorzystywane do zachęcania do efektywnej konwergencji.
Jak pokazano na siatce interpolacji, GigaGAN pozwala na płynną interpolację między monitami. Cztery rogi są tworzone przy użyciu tego samego ukrytego z, ale różnych monitów tekstowych.
Ponieważ GigaGAN zachowuje rozplątaną ukrytą przestrzeń, programiści mogą łączyć szorstki styl jednej próbki z finezyjnym stylem innej. GigaGAN może również sterować stylem bezpośrednio za pomocą podpowiedzi tekstowych.
Przeczytaj więcej powiązanych artykułów:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.