Raport aktualności Technologia
19 września 2023 r.

Model Würstchen V2 zwycięża Stable Diffusion XL z imponującą szybkością generowania obrazów o wysokiej rozdzielczości

Niedawny tweet autorstwa autora artykułu zatytułowanego „Würstchen” (po niemiecku „kiełbasa”) przykuł uwagę zarówno entuzjastów, jak i ekspertów. W tweecie udostępniono intrygujące wyniki generowania obrazów przy użyciu nowego modelu Würstchen V2.

Model Würstchen V2 zwycięża Stable Diffusion XL z imponującą szybkością generowania obrazów o wysokiej rozdzielczości
Związane z: Midjourney 5.2 i Stable Diffusion Aktualizacje SDXL 0.9 do kreatywnego generowania tekstu na obraz

Würstchen jest szybki i wydajny, generuje obrazy szybciej niż podobne modele Stable Diffusion XL przy mniejszym zużyciu pamięci. Zmniejszyło również koszty szkolenia, ponieważ Würstchen v1 wymagał jedynie 9,000 512 godzin szkolenia GPU w rozdzielczości 512 × 150,000 w porównaniu do XNUMX XNUMX godzin GPU spędzonych na Stable Diffusion 1.4. Ta 16-krotna redukcja kosztów nie tylko przynosi korzyści badaczom prowadzącym nowe eksperymenty, ale także otwiera drzwi większej liczbie organizacji do szkolenia takich modeli. Würstchen v2 wykorzystywał 24,602 6 godzin procesora graficznego, co czyni go 1.4 razy tańszym niż SD512, które było trenowane tylko w rozdzielczości 512 × XNUMX.

Jedną z wyróżniających się funkcji, która natychmiast przykuła uwagę społeczności AI, jest imponująca prędkość Würstchen V2. Według autora wygenerowanie czterech obrazów 1024×2048 za pomocą tego modelu zajmuje zaledwie 7 sekund. Dla porównania, model SDXL potrzebowałby stosunkowo powolnych 40 sekund na wykonanie tego samego zadania.

Würstchen V1, wprowadzony wcześniej, dzieli swoje podstawy z SDXL jako utajony Model dyfuzji ale zawiera szybszą architekturę Unet. Ponieważ społeczność z niecierpliwością oczekuje dalszych szczegółów na temat architektury Würstchen V2, sama zwiększona prędkość oznacza, że ​​jest to godny uwagi rozwój.

Würstchen V2 to model dyfuzyjny który działa w wysoce skompresowanej ukrytej przestrzeni obrazów, zmniejszając koszty obliczeniowe uczenia i wnioskowania o rzędy wielkości. Wykorzystuje nowatorską konstrukcję, która pozwala uzyskać 42-krotną kompresję przestrzenną, co jest osiągnięciem niespotykanym wcześniej. Würstchen stosuje dwustopniową kompresję, etap A i etap B, która dekoduje skompresowane obrazy z powrotem do przestrzeni pikseli. Trzeci model, etap C, jest uczony w wysoce skompresowanej przestrzeni utajonej, co wymaga ułamków obliczeń wykorzystywanych w przypadku obecnie najskuteczniejszych modeli, umożliwiając jednocześnie tańsze i szybsze wnioskowanie.

Würstchen V2 składa się z dwóch etapów dyfuzji:

  • Etap A: Ten etap obejmuje dyfuzję uwarunkowaną tekstem i może pochwalić się oszałamiającą liczbą 1 miliarda parametrów. Przyspieszenie tutaj osiąga się dzięki technikom bardzo wysokiej kompresji. Warto zauważyć, że zamiast ukrytego rozmiaru kodu 128x128x4, jak widać w SDXL, Würstchen V2 początkowo działa w rozdzielczości 24x24x16. Oznacza to mniej pikseli, ale więcej kanałów, co skutkuje znacznym wzrostem prędkości.
  • Etap B.: Jest to model dyfuzyjny wyposażony w 600 milionów parametrów, odpowiedzialny za dekompresję obrazu z rozdzielczości 24×24 do rozdzielczości 128×128.

Dopełnieniem procesu jest dekoder z 20 milionami parametrów, który przekształca ukryty kod w wyrenderowany obraz.

Praktyczną korzyścią, która od razu rzuca się w oczy, jest niezwykła prędkość Würstchen V2. Działa z prędkością 2-2.5 razy większą niż SDXL, co stanowi godny uwagi postęp w dziedzinie Generowanie obrazu AI.

Jak w przypadku każdej innowacji technologicznej, mogą istnieć kompromisy. Jeśli chodzi o jakość obrazu, niektórzy eksperci sugerują niewielką stratę, chociaż nadal oczekuje się na kompleksowe i uczciwe porównanie, które dostarczy konkretnych dowodów.

Poniżej znajdują się wygenerowane przykłady zamiany tekstu na obraz:

Przeczytaj więcej powiązanych tematów:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
Biznes rynki Historie i recenzje Technologia
Przejście Donalda Trumpa na kryptowaluty: od przeciwnika do adwokata i co to oznacza dla amerykańskiego rynku kryptowalut
10 maja 2024 r.
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
rynki Raport aktualności Technologia
Warstwa 3 uruchomi token L3 tego lata, przydzielając 51% całkowitej podaży społeczności
10 maja 2024 r.
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
rynki Bezpieczeństwo Wiki Tworzenie Historie i recenzje Technologia
Ostatnie ostrzeżenie Edwarda Snowdena dla twórców Bitcoina: „Uczyń prywatność priorytetem na poziomie protokołu, w przeciwnym razie ryzykuj jej utratę
10 maja 2024 r.
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
Raport aktualności Technologia
Oparta na optymizmie sieć Ethereum Layer 2 Network Mint uruchomi swoją sieć główną 15 maja
10 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.