Raport aktualności Technologia
19 czerwca 2023 r.

SnapFusion: Szybki model zamiany tekstu na obraz dla urządzeń mobilnych w ciągu 1.9 sekundy

W skrócie

SnapFusion zmienia tworzenie treści poprzez bieganie modele dyfuzji tekstu do obrazu bezpośrednio na urządzeniach mobilnych, zmniejszając koszty i rozwiązując problemy związane z prywatnością.

SnapFusion to model AI zamiany tekstu na obraz, który umożliwia użytkownikom generowanie oszałamiających obrazów z opisów w języku naturalnym, a wszystko to w ciągu zaledwie dwóch sekund na urządzeniach mobilnych. Dawno minęły czasy polegania na wysokiej klasy procesorach graficznych lub usługach w chmurze do uruchamiania tych złożonych modeli. SnapFusion demokratyzuje tworzenie treści, oddając w ręce użytkowników moc rozpowszechniania tekstu na obraz.

SnapFusion: szybki i wydajny model zamiany tekstu na obraz dla urządzeń mobilnych w ciągu 1.9 sekundy
kredyt: Midjourney /lili10292#2100

Tworzenie realistycznych obrazów z opisów tekstowych zawsze było trudnym zadaniem. Poprzednie modele wymaga dużych architektur sieciowych i wiele iteracji odszumiania, tworząc je kosztowna obliczeniowo i powolna. Ponadto uruchamianie tych modeli często wiązało się z przesyłaniem danych użytkownika do usług stron trzecich, podnoszeniem obawy dotyczące prywatności.

Aby sprostać tym wyzwaniom, twórcy SnapFusion opracowali wydajną architekturę sieciową i ulepszyli proces destylacji krokowej. Identyfikując nadmiarowość w oryginalnym modelu, wprowadzili wydajną sieć UNet i zredukowali obliczenia dekodera obrazu poprzez destylacja danych. Ponadto udoskonalili destylację krokową, badając strategie treningowe i wprowadzając techniki regularyzacji.

arxiv.org/pdf/2306.00980.pdf

Obszerne eksperymenty na Zbiór danych MS-COCO wykazały wyższość SnapFusion. Dzięki zaledwie ośmiu krokom odszumiania, SnapFusion osiągnął lepsze wyniki FID i CLIP w porównaniu do poprzedniego najnowocześniejszy model, Stable Diffusion v1.5, która wymagała 50 kroków. Ta niezwykła poprawa wydajności i wydajności otwiera nowe możliwości tworzenia treści.

Wpływ SnapFusion wykracza poza jego osiągnięcia techniczne. Biegiem modele dyfuzji tekstu do obrazu bezpośrednio na urządzeniach mobilnych, eliminuje potrzebę stosowania drogich procesorów graficznych i usług w chmurze. To nie tylko zmniejsza koszty, ale także rozwiązuje problemy związane z prywatnością związane z wysyłaniem danych użytkownika do stron trzecich. Użytkownicy mogą teraz uwolnić swoją kreatywność i generować wysokiej jakości obrazy w podróży.

Rozmiar parametrów modelu można dodatkowo zmniejszyć, aby był kompatybilny z różnymi urządzeniami brzegowymi. Dodatkowo optymalizacja modelu dla różnych urządzeń mobilnych do osiągnąć szybkie wnioskowanie prędkość jest ciągłym tematem badań.

Konieczne jest odpowiedzialne korzystanie z SnapFusion i podobnych technologii, aby zapobiegać złośliwym aplikacjom. Można podjąć środki, takie jak automatyczne systemy wykrywania, które identyfikują i oznaczają treści graficzne naruszające przepisy. Zachowując równowagę między innowacyjnością a względami etycznymi, SnapFusion może zmienić tworzenie treści, zapewniając jednocześnie bezpieczne i odpowiedzialne doświadczenie użytkownika.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Stacks, Moonriver Network, Hedera i Iron Fish wezmą udział w programie wzmacniaczy Interchain firmy Axelar
Raport aktualności Technologia
Stacks, Moonriver Network, Hedera i Iron Fish wezmą udział w programie wzmacniaczy Interchain firmy Axelar
7 maja 2024 r.
Tesla wykorzystuje Dogecoin: znaczny wzrost popularności meme coina, który staje się opcją płatności w sklepie internetowym Tesli
rynki Historie i recenzje Technologia
Tesla wykorzystuje Dogecoin: znaczny wzrost popularności meme coina, który staje się opcją płatności w sklepie internetowym Tesli
7 maja 2024 r.
Morph przedstawia swoją sieć testową Holesky z optymistyczną integracją zkEVM, mechanizmem mostkowym i funkcjami zdecentralizowanej sieci sekwencera
Raport aktualności Technologia
Morph przedstawia swoją sieć testową Holesky z optymistyczną integracją zkEVM, mechanizmem mostkowym i funkcjami zdecentralizowanej sieci sekwencera
6 maja 2024 r.
Robinhood Crypto otrzymuje zawiadomienie Wells od Komisji Papierów Wartościowych i Giełd w związku z rzekomymi naruszeniami przepisów dotyczących papierów wartościowych
rynki Raport aktualności Technologia
Robinhood Crypto otrzymuje zawiadomienie Wells od Komisji Papierów Wartościowych i Giełd w związku z rzekomymi naruszeniami przepisów dotyczących papierów wartościowych
6 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.