19 września 2023 r.

Model Würstchen V2 zwycięża Stable Diffusion XL z imponującą szybkością generowania obrazów o wysokiej rozdzielczości

Opublikowano: 19 września 2023 o 3:50 Zaktualizowano: 19 września 2023 o 4:39

Edytowane i sprawdzone pod kątem faktów: 19 września 2023 r. o 3:50

Niedawny tweet autorstwa autora artykułu zatytułowanego „Würstchen” (po niemiecku „kiełbasa”) przykuł uwagę zarówno entuzjastów, jak i ekspertów. W tweecie udostępniono intrygujące wyniki generowania obrazów przy użyciu nowego modelu Würstchen V2.

Model Würstchen V2 zwycięża Stable Diffusion XL z imponującą szybkością generowania obrazów o wysokiej rozdzielczości

Związane z: Midjourney 5.2 i Stable Diffusion Aktualizacje SDXL 0.9 do kreatywnego generowania tekstu na obraz

Würstchen jest szybki i wydajny, generuje obrazy szybciej niż podobne modele Stable Diffusion XL przy mniejszym zużyciu pamięci. Zmniejszyło również koszty szkolenia, ponieważ Würstchen v1 wymagał jedynie 9,000 512 godzin szkolenia GPU w rozdzielczości 512 × 150,000 w porównaniu do XNUMX XNUMX godzin GPU spędzonych na Stable Diffusion 1.4. Ta 16-krotna redukcja kosztów nie tylko przynosi korzyści badaczom prowadzącym nowe eksperymenty, ale także otwiera drzwi większej liczbie organizacji do szkolenia takich modeli. Würstchen v2 wykorzystywał 24,602 6 godzin procesora graficznego, co czyni go 1.4 razy tańszym niż SD512, które było trenowane tylko w rozdzielczości 512 × XNUMX.

Jedną z wyróżniających się funkcji, która natychmiast przykuła uwagę społeczności AI, jest imponująca prędkość Würstchen V2. Według autora wygenerowanie czterech obrazów 1024×2048 za pomocą tego modelu zajmuje zaledwie 7 sekund. Dla porównania, model SDXL potrzebowałby stosunkowo powolnych 40 sekund na wykonanie tego samego zadania.

Würstchen V1, wprowadzony wcześniej, dzieli swoje podstawy z SDXL jako utajony Model dyfuzji ale zawiera szybszą architekturę Unet. Ponieważ społeczność z niecierpliwością oczekuje dalszych szczegółów na temat architektury Würstchen V2, sama zwiększona prędkość oznacza, że jest to godny uwagi rozwój.

Würstchen V2 to model dyfuzyjny który działa w wysoce skompresowanej ukrytej przestrzeni obrazów, zmniejszając koszty obliczeniowe uczenia i wnioskowania o rzędy wielkości. Wykorzystuje nowatorską konstrukcję, która pozwala uzyskać 42-krotną kompresję przestrzenną, co jest osiągnięciem niespotykanym wcześniej. Würstchen stosuje dwustopniową kompresję, etap A i etap B, która dekoduje skompresowane obrazy z powrotem do przestrzeni pikseli. Trzeci model, etap C, jest uczony w wysoce skompresowanej przestrzeni utajonej, co wymaga ułamków obliczeń wykorzystywanych w przypadku obecnie najskuteczniejszych modeli, umożliwiając jednocześnie tańsze i szybsze wnioskowanie.

Würstchen V2 składa się z dwóch etapów dyfuzji:

Etap A: Ten etap obejmuje dyfuzję uwarunkowaną tekstem i może pochwalić się oszałamiającą liczbą 1 miliarda parametrów. Przyspieszenie tutaj osiąga się dzięki technikom bardzo wysokiej kompresji. Warto zauważyć, że zamiast ukrytego rozmiaru kodu 128x128x4, jak widać w SDXL, Würstchen V2 początkowo działa w rozdzielczości 24x24x16. Oznacza to mniej pikseli, ale więcej kanałów, co skutkuje znacznym wzrostem prędkości.

Etap B.: Jest to model dyfuzyjny wyposażony w 600 milionów parametrów, odpowiedzialny za dekompresję obrazu z rozdzielczości 24×24 do rozdzielczości 128×128.

Dopełnieniem procesu jest dekoder z 20 milionami parametrów, który przekształca ukryty kod w wyrenderowany obraz.

Praktyczną korzyścią, która od razu rzuca się w oczy, jest niezwykła prędkość Würstchen V2. Działa z prędkością 2-2.5 razy większą niż SDXL, co stanowi godny uwagi postęp w dziedzinie Generowanie obrazu AI.

Jak w przypadku każdej innowacji technologicznej, mogą istnieć kompromisy. Jeśli chodzi o jakość obrazu, niektórzy eksperci sugerują niewielką stratę, chociaż nadal oczekuje się na kompleksowe i uczciwe porównanie, które dostarczy konkretnych dowodów.

Poniżej znajdują się wygenerowane przykłady zamiany tekstu na obraz:

Przeczytaj więcej powiązanych tematów:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow