GLIGEN: νέο μοντέλο παραγωγής παγωμένου κειμένου σε εικόνα με πλαίσιο οριοθέτησης
Εν συντομία
Το GLIGEN, ή Grounded-Language-to-Image Generation, είναι μια νέα τεχνική που βασίζεται και επεκτείνει την ικανότητα των τρεχόντων προεκπαιδευμένων μοντέλων διάχυσης.
Με εισαγωγές συνθηκών υπότιτλων και πλαισίου οριοθέτησης, το μοντέλο GLIGEN δημιουργεί γειωμένο text2img ανοιχτού κόσμου.
Το GLIGEN μπορεί να δημιουργήσει μια ποικιλία αντικειμένων σε συγκεκριμένα μέρη και στυλ, αξιοποιώντας τη γνώση από ένα προεκπαιδευμένο μοντέλο text2img.
Το GLIGEN μπορεί επίσης να γειώσει ανθρώπινα σημεία-κλειδιά κατά τη δημιουργία κειμένου σε εικόνα.
Τα μοντέλα διάχυσης κειμένου σε εικόνα μεγάλης κλίμακας έχουν προχωρήσει πολύ. Ωστόσο, η τρέχουσα πρακτική είναι να βασίζεστε αποκλειστικά στην εισαγωγή κειμένου, η οποία μπορεί να περιορίσει τη δυνατότητα ελέγχου. GLIGEN, ή Grounded-Language-to-Image Generation, είναι μια νέα τεχνική που βασίζεται και επεκτείνει την ικανότητα των τρεχόντων προεκπαιδευμένων μοντέλων διάχυσης κειμένου σε εικόνα, επιτρέποντάς τους να εξαρτώνται από εισόδους γείωσης.
Για να διατηρήσουν την εκτεταμένη γνώση του προεκπαιδευμένου μοντέλου, οι προγραμματιστές παγώνουν όλα τα βάρη του και αντλούν τις πληροφορίες γείωσης σε νέα εκπαιδευτικά στρώματα μέσω μιας ελεγχόμενης διαδικασίας. Με τις εισαγωγές συνθηκών υπότιτλων και οριοθέτησης, το μοντέλο GLIGEN δημιουργεί γειωμένο κείμενο σε εικόνα ανοιχτού κόσμου και η ικανότητα γείωσης γενικεύεται αποτελεσματικά σε νέες χωρικές διαμορφώσεις και έννοιες.
Ελέγξτε το διαδήλωση εδώ.
- Το GLIGEN βασίζεται σε υπάρχοντα προεκπαιδευμένα μοντέλα διάχυσης, τα αρχικά βάρη των οποίων έχουν παγώσει για να διατηρηθούν τεράστιες ποσότητες προεκπαιδευμένης γνώσης.
- Σε κάθε μπλοκ μετασχηματιστή, δημιουργείται ένα νέο εκπαιδεύσιμο στρώμα Gated Self-Attention για να απορροφά πρόσθετη είσοδο γείωσης.
- Κάθε διακριτικό γείωσης έχει δύο τύπους πληροφοριών: σημασιολογικές πληροφορίες για το γειωμένο πράγμα (κωδικοποιημένο κείμενο ή εικόνα) και πληροφορίες χωρικής θέσης (κωδικοποιημένο πλαίσιο οριοθέτησης ή βασικά σημεία).
Σχετικό άρθρο: VToonify: Ένα μοντέλο τεχνητής νοημοσύνης σε πραγματικό χρόνο για τη δημιουργία καλλιτεχνικών βίντεο πορτρέτου |
Σχετικό άρθρο: Η Microsoft κυκλοφόρησε ένα μοντέλο διάχυσης που μπορεί να δημιουργήσει ένα 3D avatar από μια φωτογραφία ενός ατόμου |
Διαβάστε περισσότερα για το AI:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.