Model Würstchen V2 zwycięża Stable Diffusion XL z imponującą szybkością generowania obrazów o wysokiej rozdzielczości
Niedawny tweet autorstwa autora artykułu zatytułowanego „Würstchen” (po niemiecku „kiełbasa”) przykuł uwagę zarówno entuzjastów, jak i ekspertów. W tweecie udostępniono intrygujące wyniki generowania obrazów przy użyciu nowego modelu Würstchen V2.
Związane z: Midjourney 5.2 i Stable Diffusion Aktualizacje SDXL 0.9 do kreatywnego generowania tekstu na obraz |
Würstchen jest szybki i wydajny, generuje obrazy szybciej niż podobne modele Stable Diffusion XL przy mniejszym zużyciu pamięci. Zmniejszyło również koszty szkolenia, ponieważ Würstchen v1 wymagał jedynie 9,000 512 godzin szkolenia GPU w rozdzielczości 512 × 150,000 w porównaniu do XNUMX XNUMX godzin GPU spędzonych na Stable Diffusion 1.4. Ta 16-krotna redukcja kosztów nie tylko przynosi korzyści badaczom prowadzącym nowe eksperymenty, ale także otwiera drzwi większej liczbie organizacji do szkolenia takich modeli. Würstchen v2 wykorzystywał 24,602 6 godzin procesora graficznego, co czyni go 1.4 razy tańszym niż SD512, które było trenowane tylko w rozdzielczości 512 × XNUMX.
Würstchen V2 to model dyfuzyjny który działa w wysoce skompresowanej ukrytej przestrzeni obrazów, zmniejszając koszty obliczeniowe uczenia i wnioskowania o rzędy wielkości. Wykorzystuje nowatorską konstrukcję, która pozwala uzyskać 42-krotną kompresję przestrzenną, co jest osiągnięciem niespotykanym wcześniej. Würstchen stosuje dwustopniową kompresję, etap A i etap B, która dekoduje skompresowane obrazy z powrotem do przestrzeni pikseli. Trzeci model, etap C, jest uczony w wysoce skompresowanej przestrzeni utajonej, co wymaga ułamków obliczeń wykorzystywanych w przypadku obecnie najskuteczniejszych modeli, umożliwiając jednocześnie tańsze i szybsze wnioskowanie.
Würstchen V2 składa się z dwóch etapów dyfuzji:
- Etap A: Ten etap obejmuje dyfuzję uwarunkowaną tekstem i może pochwalić się oszałamiającą liczbą 1 miliarda parametrów. Przyspieszenie tutaj osiąga się dzięki technikom bardzo wysokiej kompresji. Warto zauważyć, że zamiast ukrytego rozmiaru kodu 128x128x4, jak widać w SDXL, Würstchen V2 początkowo działa w rozdzielczości 24x24x16. Oznacza to mniej pikseli, ale więcej kanałów, co skutkuje znacznym wzrostem prędkości.
- Etap B.: Jest to model dyfuzyjny wyposażony w 600 milionów parametrów, odpowiedzialny za dekompresję obrazu z rozdzielczości 24×24 do rozdzielczości 128×128.
Dopełnieniem procesu jest dekoder z 20 milionami parametrów, który przekształca ukryty kod w wyrenderowany obraz.
Praktyczną korzyścią, która od razu rzuca się w oczy, jest niezwykła prędkość Würstchen V2. Działa z prędkością 2-2.5 razy większą niż SDXL, co stanowi godny uwagi postęp w dziedzinie Generowanie obrazu AI.
Jak w przypadku każdej innowacji technologicznej, mogą istnieć kompromisy. Jeśli chodzi o jakość obrazu, niektórzy eksperci sugerują niewielką stratę, chociaż nadal oczekuje się na kompleksowe i uczciwe porównanie, które dostarczy konkretnych dowodów.
Poniżej znajdują się wygenerowane przykłady zamiany tekstu na obraz:
Przeczytaj więcej powiązanych tematów:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.