Text-to-SVG: Η Berkeley ανακοίνωσε αφηρημένο μοντέλο διάχυσης που βασίζεται σε pixel
Εν συντομία
Σύνθεση κειμένου σε εικόνα – Οι ερευνητές του UC Berkeley επιδεικνύουν διανυσματικά γραφικά με ρύθμιση κειμένου μοντέλα διάχυσης
Στη σύνθεση κειμένου σε εικόνα, τα μοντέλα διάχυσης έχουν κατέδειξε εξαιρετικά αποτελέσματα. Τα μοντέλα διάχυσης μαθαίνουν να παράγουν ράστερ εικόνες εξαιρετικά διαφορετικών αντικειμένων και καταστάσεων χρησιμοποιώντας τεράστιες βάσεις δεδομένων με σχολιασμένες φωτογραφίες. Ωστόσο, για ψηφιακά εικονίδια, γραφικά και αυτοκόλλητα, οι σχεδιαστές χρησιμοποιούν συνήθως διανυσματικές αναπαραστάσεις εικόνων όπως τα Scalable Vector Graphics (SVG). Τα διανυσματικά γραφικά είναι μικρά και μπορούν να κλιμακωθούν σε οποιοδήποτε μέγεθος.
Το UC Berkeley δείχνει πώς να παράγετε διανυσματικά γραφικά που μπορούν να εξαχθούν ως SVG χρησιμοποιώντας ένα μοντέλο διάχυσης ρυθμισμένου κειμένου που εκπαιδεύτηκε σε αναπαραστάσεις εικονοστοιχείων εικόνων. Αυτό το επιτυγχάνει χωρίς τη χρήση εκτεταμένων συλλογών SVG με λεζάντες. Αντίθετα, οι ερευνητές του Μπέρκλεϋ διανυσματοποιούν α διάχυση κειμένου σε εικόνα δείγμα και βελτιστοποιήστε το με μια απώλεια δειγματοληψίας απόσταξης βαθμολογίας, με κίνητρο την πρόσφατη εργασία για τη σύνθεση κειμένου σε 3D.
Παράδειγμα δημιουργημένων διανυσμάτων
Ρίξτε μια ματιά στη γκαλερί SVG που δημιουργήθηκε πρόσφατα εδώ.
Τα διανυσματικά γραφικά είναι μικρά, αλλά διατηρούν την ευκρίνειά τους όταν κλιμακώνονται σε οποιοδήποτε μέγεθος. Οι ερευνητές στο Berkeley βελτιώνουν την απώλεια εικόνας-κειμένου με βάση τη δειγματοληψία απόσταξης βαθμολογίας για τη βελτιστοποίηση των διανυσματικών γραφικών. Η διαφοροποιήσιμη απόδοση SVG DiffVG, η οποία χρησιμοποιείται από το VectorFusion, καθιστά δυνατή την αντίστροφη απεικόνιση.
Επιπλέον, το VectorFusion επιτρέπει μια διαμόρφωση πολλαπλών σταδίων που είναι πιο αποτελεσματική και υψηλότερης ποιότητας. Αυτή η μέθοδος ξεκινά με τη λήψη δειγμάτων ράστερ από το μοντέλο διάχυσης κειμένου σε εικόνα που ονομάζεται Stable Diffusion. Στη συνέχεια, τα δείγματα ανιχνεύονται αυτόματα από το VectorFusion χρησιμοποιώντας LIVE. Αυτά τα δείγματα, ωστόσο, συχνά δεν έχουν λεπτομέρειες, είναι βαρετά ή είναι δύσκολο να προσαρμοστούν σε διανυσματικά γραφικά. Ενίσχυση της ζωντάνιας και της συνέπειας του κειμένου μέσω του Score Distillation Sampling.
Το VectorFusion μπορεί να παράγει εικονοστοιχεία σε στυλ παλιών βιντεοπαιχνιδιών περιορίζοντας τις διαδρομές SVG σε τετράγωνα σε ένα πλέγμα.
Αυτή η προσέγγιση επεκτείνεται εύκολα για να υποστηρίξει τη δημιουργία κειμένου σε σκίτσο. Για να μάθουμε ένα αφηρημένο γραμμικό σχέδιο που αναπαριστά με ακρίβεια το κείμενο που παρέχεται από τον χρήστη, σχεδιάζουμε πρώτα 16 τυχαία επιλεγμένες πινελιές. Στη συνέχεια, βελτιστοποιούμε την απώλεια δειγματοληψίας απόσταξης λανθάνουσας βαθμολογίας.
Διαβάστε σχετικά άρθρα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.