Raport aktualności Technologia
Listopad 17, 2022

Nvidia ogłosiła eDiff-I: nową generatywną sztuczną inteligencję do syntezy tekstu i obrazu z natychmiastowym transferem stylów

W skrócie

Nvidia uruchamia eDiff-I, aby pomóc firmom w tworzeniu atrakcyjnych obrazów wysokiej jakości

Technika eDiff-I regularnie zapewnia lepszą jakość syntezy niż DALL-E2 i Stable diffusion

eDiff-I to nowe narzędzie do tworzenia treści AI, które zapewnia bezprecedensowe możliwości syntezy tekstu na obraz dla marketerów i firm, jak niedawno ogłosił Nvidia. Dzięki eDiff-I firmy mogą szybko i łatwo tworzyć atrakcyjne efekty wizualne wysokiej jakości bez potrzeby posiadania drogiego sprzętu lub profesjonalnej pomocy. eDiff-I wykorzystuje przetwarzanie języka naturalnego (NLP) do interpretacji danych wprowadzanych przez użytkownika i generowania odpowiednich obrazów. Sztuczna inteligencja następnie analizuje obrazy i wybiera najbardziej odpowiedni w oparciu o kontekst. Rezultatem jest wysokiej jakości, profesjonalnie wyglądający obraz, który można wykorzystać do różnych celów, takich jak materiały marketingowe, posty w mediach społecznościowych, kampanie e-mailowe i inne.

eDiff-I jest a generatywnej sztucznej inteligencji nowej generacji narzędzie do tworzenia treści, które zapewnia bezprecedensowe tekst na obraz syntezy, szybkiego transferu stylów i intuicyjnego malowania słowami. Jako model dyfuzji do tworzenia wizualizacji z tekstu, eDiff-I sugeruje szkolenie zespołu eksperckich sieci odszumiających, z których każda specjalizuje się w określonym przedziale szumów, w odpowiedzi na empiryczne odkrycie, że zachowanie modeli dyfuzji zmienia się w różnych fazach próbkowania.

Nvidia ogłosiła eDiff-I: nową generatywną sztuczną inteligencję do syntezy tekstu i obrazu z natychmiastowym transferem stylów

Osadzanie tekstu T5, osadzanie obrazów CLIP i osadzanie tekstu CLIP stanowią podstawę koncepcji eDiff-I. Ta metodologia może tworzyć fotorealistyczną grafikę w odpowiedzi na dowolne zapytanie tekstowe.

Oferuje dwie dodatkowe możliwości oprócz syntezy tekstu na obraz: (1) transfer stylu, który pozwala nam kontrolować styl wygenerowanej próbki za pomocą obrazu stylu referencyjnego, oraz (2) „Maluj słowami”, narzędzie który umożliwia użytkownikom tworzenie obrazów poprzez malowanie map segmentacji na płótnie.

Rurociąg
Rurociąg

Potok składa się z kaskady trzech modeli dyfuzyjnych: modelu podstawowego, który może tworzyć próbki o rozdzielczości 64 × 64, oraz dwóch stosów o super rozdzielczości, które mogą stopniowo zwiększać próbkowanie obrazów do rozdzielczości odpowiednio 256 × 256 i 1024 × 1024. Modele obliczają T5 XXL i osadzają tekst po otrzymaniu podpisu jako danych wejściowych. Te osadzone obrazy mogą służyć jako wektor stylu. Następnie wprowadź te osady do naszej kaskady modele dyfuzyjne, które stopniowo wytwarzają obrazy o rozdzielczości 1024 x 1024.

Podejście eDiff-I konsekwentnie skutkuje lepszą jakością syntezy w porównaniu z algorytmami typu open source zamiany tekstu na obraz (Stable diffusion) i (DALL-E2).

Efekt
Efekt

Gdy stosowane jest osadzanie obrazu CLIP, podejście eDiff-I ułatwia przenoszenie stylu. eDiff-I najpierw wyodrębnia pliki CLIP osadzania obrazu z obrazu w stylu referencyjnym, który można wykorzystać jako wektor referencyjny stylu. Odniesienie stylistyczne można zobaczyć na lewym panelu na poniższym rysunku. Wyniki po włączeniu warunkowania stylu są wyświetlane w panelu środkowym. Wyniki po wyłączeniu warunkowania stylu są wyświetlane w panelu po prawej stronie. Po zastosowaniu warunkowania stylu model eDiff-I tworzy dane wyjściowe, które są również zgodne ze stylem podpisu wejściowego. Gdy funkcja dostosowywania stylu jest wyłączona, tworzone są naturalnie wyglądające zdjęcia.

Transfer stylu
Transfer stylu

Wybierając frazy i zapisując je na obrazku, użytkownicy metody eDiff-I mogą zmieniać rozmieszczenie rzeczy, które są wymienione w monicie tekstowym. Następnie model używa monit i mapy do tworzenia obrazów które są zgodne zarówno z podpisem, jak i mapą wejściową.

Przeczytaj powiązane artykuły:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Pantera Capital inwestuje w TON Blockchain i wyraża zaufanie w potencjał Telegramu w zakresie zwiększania dostępności kryptowalut
Biznes Raport aktualności Technologia
Pantera Capital inwestuje w TON Blockchain i wyraża zaufanie w potencjał Telegramu w zakresie zwiększania dostępności kryptowalut
2 maja 2024 r.
Mitosis pozyskuje fundusze o wartości 7 mln dolarów od Amber Group i przedsięwzięć Foresight w celu udoskonalenia swojego modułowego protokołu płynności
Biznes Raport aktualności Technologia
Mitosis pozyskuje fundusze o wartości 7 mln dolarów od Amber Group i przedsięwzięć Foresight w celu udoskonalenia swojego modułowego protokołu płynności
2 maja 2024 r.
Galxe współpracuje z Jambo, aby rozszerzyć globalną dostępność Web3
Biznes Raport aktualności Technologia
Galxe współpracuje z Jambo, aby rozszerzyć globalną dostępność Web3
2 maja 2024 r.
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
AI Wiki Aktualności Tworzenie Technologia
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
2 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.