Raport aktualności
Listopad 06, 2022

ERNIE-ViLG 2.0: Nowy model zamiany tekstu na obraz firmy Baidu przewyższa Dalle-2 i Stable Diffusion

W skrócie

Zarówno Dalle-2, jak i Stable Diffusion były znacznie lepsze od ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 to model zamiany tekstu na obraz, który oferuje lepszą wydajność niż Dalle-2 i Stable Diffusion, dwa z najpopularniejszych obecnie dostępnych modeli zamiany tekstu na obraz. Nowy model został zaprojektowany i przeszkolony przez zespół naukowców z Baidu, a wyniki zapierają dech w piersiach.

Nowy model zamiany tekstu na obraz ERNIE-ViLG 2.0 przewyższa Dalle-2 i Stable Diffusion
Obraz stworzony przez ERNIE-ViLG 2.0

Wyniki wykazały, że ERNIE-ViLG 2.0 znacznie przewyższał Dalle-2 i Stable Diffusion. Jest to znaczące osiągnięcie i pokazuje siłę struktury ERNIE. The Metaverse Post zespół porównał ERNIE-ViLG 2.0 z Stable Diffusion poniżej:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Wyniki te stanowią mocne wsparcie dla hipotezy, że ERNIE-ViLG 2.0 jest bardziej skuteczny systemu zamiany tekstu na obraz niż zarówno Dalle-2, jak i Stable Diffusion.

Architektura Unet z Stable Diffusion przyjmuje się jako podstawę, ale ze zmianami:

  • Mieszanka ekspertów od usuwania szumów: Istnieje 10 sieci neuronowych zamiast jednej, z których każda jest odpowiedzialna tylko za określone etapy dyfuzji.
  • Znajomość tekstu: Automatycznie ponownie zważono słowa w zapytaniu, aby słowa kluczowe miały większą wagę.
  • Wiedza wizualna: Podczas treningu wykrywano obiekty na wynikach generacji pośredniej i zwiększono wagę funkcji utraty na obszarach z obiektami.

W rezultacie największy na świecie model zamiany tekstu na obraz wyszedł z 24 miliardami parametrów (10 razy większymi niż SD) do trenowania modelu.

W porównaniu do wcześniejszych modeli, ERNIE-ViLG 2.0 znacznie je przewyższa pod względem jakości obrazu i dopasowania obrazu do tekstu, gdy testowano go jednocześnie na dwujęzycznym modelu ViLG-300 podpowiedź ustawione przez osobę.

Podpowiedzi są automatycznie tłumaczone z chińskiego na angielski w programie Przytulanie twarzy publiczne demo przed wysłaniem do sztucznej inteligencji. Wynika z tego wiele funkcji.

  • ERNIE nie zna międzynarodowych osób publicznych. Na przykład ERNIE nie zna Arnolda Schwarzeneggera. Z pewnością ma lokalnych faworytów w Chinach.
  • W rezultacie metoda wykorzystywania nazwisk gwiazd w podpowiedziach radykalnie podnosi jakość twarze zawiedzie.
  • Możesz spodziewać się pewnych zniekształceń z powodu tłumaczenia z chińskiego, więc jeśli nie mówisz po chińsku, mogą cię czekać pewne niespodzianki.
  • Nie wie nawet nic o Gregu Rutkowskim.

Przeczytaj powiązane artykuły:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories

Rozwiązanie handlu stabilną monetą BRICS Nations Eye

by Wiktoria Palchik
01 maja 2024 r.
Dołącz do naszego newslettera.
Najnowsze wieści

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Ankr współpracuje z platformą AI Blockchain Talus Network, aby odblokować płynność Bitcoinów dla sztucznej inteligencji
Biznes Raport aktualności Technologia
Ankr współpracuje z platformą AI Blockchain Talus Network, aby odblokować płynność Bitcoinów dla sztucznej inteligencji
1 maja 2024 r.
Binance Labs wspiera Movement Labs, aby ułatwić integrację Facebooka Move w ramach łańcuchów bloków
Biznes Raport aktualności Technologia
Binance Labs wspiera Movement Labs, aby ułatwić integrację Facebooka Move w ramach łańcuchów bloków
1 maja 2024 r.
Rozwiązanie handlu stabilną monetą BRICS Nations Eye
Biznes rynki Historie i recenzje Technologia
Rozwiązanie handlu stabilną monetą BRICS Nations Eye
1 maja 2024 r.
Bitcoin L2 Network BOB integruje się z LayerZero w celu zwiększenia funkcjonalności
Biznes Raport aktualności Technologia
Bitcoin L2 Network BOB integruje się z LayerZero w celu zwiększenia funkcjonalności
1 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.