Text-to-SVG: Berkeley ogłosił abstrakcję opartego na pikselach modelu dyfuzji
W skrócie
Synteza tekstu na obraz — naukowcy z UC Berkeley demonstrują grafikę wektorową z uwarunkowaniem tekstowym modele dyfuzyjne
W syntezie tekstu na obraz modele dyfuzji mają wykazać wybitne wyniki. Modele dyfuzyjne uczą się tworzyć obrazy rastrowe niezwykle różnorodnych obiektów i sytuacji przy użyciu ogromnych baz danych zdjęć z adnotacjami. Jednak w przypadku cyfrowych ikon, grafiki i naklejek projektanci zazwyczaj wykorzystują wektorowe reprezentacje obrazów, takie jak Scalable Vector Graphics (SVG). Grafika wektorowa jest niewielka i można ją skalować do dowolnego rozmiaru.
UC Berkeley demonstruje, jak tworzyć grafikę wektorową, którą można wyeksportować jako SVG przy użyciu modelu dyfuzji uwarunkowanego tekstem, który został wyszkolony na podstawie reprezentacji pikseli obrazu. Osiąga to bez korzystania z obszernych kolekcji plików SVG z podpisami. Zamiast tego badacze z Berkeley wektoryzują a dyfuzja tekstu do obrazu próbki i dostroić ją za pomocą utraty próbkowania Score Distillation, motywowanej niedawnymi pracami nad syntezą tekstu do 3D.
Przykład wygenerowanych wektorów
Sprawdź świeżo wygenerowaną galerię SVG tutaj.
Grafika wektorowa jest niewielka, ale zachowuje ostrość po przeskalowaniu do dowolnego rozmiaru. Naukowcy z Berkeley poprawiają utratę obrazu i tekstu w oparciu o próbkowanie Score Distillation, aby zoptymalizować grafikę wektorową. Różnicowalny renderer SVG DiffVG, który jest używany przez VectorFusion, umożliwia tworzenie odwrotnych wizualizacji.
Dodatkowo VectorFusion pozwala na wieloetapową konfigurację, która jest bardziej efektywna i wyższej jakości. Ta metoda rozpoczyna się od pobrania próbek rastrowych z model dyfuzji tekstu do obrazu nazywa Stable Diffusion. Próbki są następnie automatycznie śledzone przez VectorFusion za pomocą LIVE. Próbki te są jednak często pozbawione szczegółów, nudne lub trudne do dostosowania do grafiki wektorowej. Zwiększenie żywości i spójności tekstu dzięki próbkowaniu Score Distillation.
VectorFusion może tworzyć grafikę pikselową w stylu starych gier wideo, ograniczając ścieżki SVG do kwadratów na siatce.
Podejście to można łatwo rozszerzyć, aby obsługiwało generowanie tekstu na szkic. Aby nauczyć się abstrakcyjnego rysowania linii, który dokładnie przedstawia tekst dostarczony przez użytkownika, najpierw rysujemy 16 losowo wybranych kresek. Następnie optymalizujemy naszą utajoną utratę wyniku destylacji.
Przeczytaj powiązane artykuły:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.