Αναφορά ειδήσεων Τεχνολογία
Ιανουάριος 24, 2023

GLIGEN: νέο μοντέλο παραγωγής παγωμένου κειμένου σε εικόνα με πλαίσιο οριοθέτησης

Εν συντομία

Το GLIGEN, ή Grounded-Language-to-Image Generation, είναι μια νέα τεχνική που βασίζεται και επεκτείνει την ικανότητα των τρεχόντων προεκπαιδευμένων μοντέλων διάχυσης.

Με εισαγωγές συνθηκών υπότιτλων και πλαισίου οριοθέτησης, το μοντέλο GLIGEN δημιουργεί γειωμένο text2img ανοιχτού κόσμου.

Το GLIGEN μπορεί να δημιουργήσει μια ποικιλία αντικειμένων σε συγκεκριμένα μέρη και στυλ, αξιοποιώντας τη γνώση από ένα προεκπαιδευμένο μοντέλο text2img.

Το GLIGEN μπορεί επίσης να γειώσει ανθρώπινα σημεία-κλειδιά κατά τη δημιουργία κειμένου σε εικόνα.

Τα μοντέλα διάχυσης κειμένου σε εικόνα μεγάλης κλίμακας έχουν προχωρήσει πολύ. Ωστόσο, η τρέχουσα πρακτική είναι να βασίζεστε αποκλειστικά στην εισαγωγή κειμένου, η οποία μπορεί να περιορίσει τη δυνατότητα ελέγχου. GLIGEN, ή Grounded-Language-to-Image Generation, είναι μια νέα τεχνική που βασίζεται και επεκτείνει την ικανότητα των τρεχόντων προεκπαιδευμένων μοντέλων διάχυσης κειμένου σε εικόνα, επιτρέποντάς τους να εξαρτώνται από εισόδους γείωσης.

GLIGEN: νέο μοντέλο παραγωγής παγωμένου κειμένου σε εικόνα με πλαίσιο οριοθέτησης

Για να διατηρήσουν την εκτεταμένη γνώση του προεκπαιδευμένου μοντέλου, οι προγραμματιστές παγώνουν όλα τα βάρη του και αντλούν τις πληροφορίες γείωσης σε νέα εκπαιδευτικά στρώματα μέσω μιας ελεγχόμενης διαδικασίας. Με τις εισαγωγές συνθηκών υπότιτλων και οριοθέτησης, το μοντέλο GLIGEN δημιουργεί γειωμένο κείμενο σε εικόνα ανοιχτού κόσμου και η ικανότητα γείωσης γενικεύεται αποτελεσματικά σε νέες χωρικές διαμορφώσεις και έννοιες.

Ελέγξτε το διαδήλωση εδώ.

Το GLIGEN βασίζεται σε υπάρχοντα προεκπαιδευμένα μοντέλα διάχυσης, τα αρχικά βάρη των οποίων έχουν παγώσει για να διατηρηθούν τεράστιες ποσότητες προεκπαιδευμένης γνώσης.
  • Το GLIGEN βασίζεται σε υπάρχοντα προεκπαιδευμένα μοντέλα διάχυσης, τα αρχικά βάρη των οποίων έχουν παγώσει για να διατηρηθούν τεράστιες ποσότητες προεκπαιδευμένης γνώσης.
  • Σε κάθε μπλοκ μετασχηματιστή, δημιουργείται ένα νέο εκπαιδεύσιμο στρώμα Gated Self-Attention για να απορροφά πρόσθετη είσοδο γείωσης.
  • Κάθε διακριτικό γείωσης έχει δύο τύπους πληροφοριών: σημασιολογικές πληροφορίες για το γειωμένο πράγμα (κωδικοποιημένο κείμενο ή εικόνα) και πληροφορίες χωρικής θέσης (κωδικοποιημένο πλαίσιο οριοθέτησης ή βασικά σημεία).
Σχετικό άρθρο: VToonify: Ένα μοντέλο τεχνητής νοημοσύνης σε πραγματικό χρόνο για τη δημιουργία καλλιτεχνικών βίντεο πορτρέτου
Τα πρόσφατα προστιθέμενα διαμορφωμένα στρώματα προ-εκπαιδεύονται συνεχώς σε τεράστια δεδομένα γείωσης (εικόνα-κείμενο-πλαίσιο), το οποίο είναι πιο οικονομικό από τις εναλλακτικές μεθόδους χρήσης ενός προεκπαιδευμένου μοντέλου διάχυσης, όπως η τελειοποίηση πλήρους μοντέλου. Παρόμοια με τα Lego, διαφορετικά εκπαιδευμένα στρώματα μπορούν να συνδεθούν και να βγουν στην πρίζα για να επιτρέψουν διάφορες νέες δυνατότητες.
Τα διαμορφωμένα επίπεδα που προστέθηκαν πρόσφατα εκπαιδεύονται συνεχώς σε τεράστια δεδομένα γείωσης (εικόνα-πλαίσιο κειμένου). Αυτό είναι πιο οικονομικό από τις εναλλακτικές μεθόδους χρήσης ενός προεκπαιδευμένου μοντέλο διάχυσης, όπως η τελειοποίηση πλήρους μοντέλου. Παρόμοια με τα Lego, διαφορετικά εκπαιδευμένα στρώματα μπορούν να συνδεθούν και να βγουν στην πρίζα για να επιτρέψουν διάφορες νέες δυνατότητες.
Το GLIGEN υποστηρίζει προγραμματισμένη δειγματοληψία στη διαδικασία διάχυσης για συμπέρασμα, όπου το μοντέλο μπορεί δυναμικά να επιλέξει να χρησιμοποιήσει διακριτικά γείωσης (προσθέτοντας το νέο επίπεδο) ή το αρχικό μοντέλο διάχυσης με καλή προηγούμενη (βάζοντας έξω το νέο επίπεδο) και έτσι να εξισορροπήσει την ποιότητα παραγωγής και ικανότητα γείωσης.
Το GLIGEN υποστηρίζει προγραμματισμένη δειγματοληψία στη διαδικασία διάχυσης για συμπέρασμα, όπου το μοντέλο μπορεί δυναμικά να επιλέξει να χρησιμοποιήσει διακριτικά γείωσης (προσθέτοντας το νέο επίπεδο) ή το αρχικό μοντέλο διάχυσης με καλή προηγούμενη (βάζοντας έξω το νέο επίπεδο) και έτσι να εξισορροπήσει την ποιότητα παραγωγής και ικανότητα γείωσης.
Το GLIGEN μπορεί να δημιουργήσει μια ποικιλία αντικειμένων σε συγκεκριμένα μέρη και στυλ, αξιοποιώντας τη γνώση από ένα προεκπαιδευμένο μοντέλο text2img.
Το GLIGEN μπορεί να δημιουργήσει μια ποικιλία αντικειμένων σε συγκεκριμένα μέρη και στυλ, αξιοποιώντας τη γνώση από ένα προεκπαιδευμένο μοντέλο text2img.
Σχετικό άρθρο: Η Microsoft κυκλοφόρησε ένα μοντέλο διάχυσης που μπορεί να δημιουργήσει ένα 3D avatar από μια φωτογραφία ενός ατόμου
Το GLIGEN μπορεί επίσης να εκπαιδευτεί χρησιμοποιώντας εικόνες αναφοράς.
Το GLIGEN μπορεί επίσης να εκπαιδευτεί χρησιμοποιώντας εικόνες αναφοράς. Η επάνω σειρά υποδηλώνει ότι οι φωτογραφίες αναφοράς, εκτός από τις γραπτές περιγραφές, μπορούν να παρέχουν πιο λεπτομερή χαρακτηριστικά, όπως το στυλ και το σχήμα του αυτοκινήτου. Η δεύτερη σειρά δείχνει ότι μια εικόνα αναφοράς μπορεί επίσης να χρησιμοποιηθεί ως εικόνα στυλ, οπότε ανακαλύπτουμε ότι η γείωση της σε μια γωνία ή άκρη μιας εικόνας αρκεί.
Το GLIGEN, όπως και άλλα μοντέλα διάχυσης, μπορεί να εκτελέσει γειωμένη εικόνα εικόνων, η οποία μπορεί να δημιουργήσει αντικείμενα που ταιριάζουν στενά με τα παρεχόμενα πλαίσια οριοθέτησης.
Το GLIGEN, όπως και άλλα μοντέλα διάχυσης, μπορεί να εκτελέσει γειωμένη εικόνα εικόνων, η οποία μπορεί να δημιουργήσει αντικείμενα που ταιριάζουν στενά με τα παρεχόμενα πλαίσια οριοθέτησης.
Το GLIGEN μπορεί επίσης να γειώσει ανθρώπινα σημεία-κλειδιά κατά τη δημιουργία κειμένου σε εικόνα.
Το GLIGEN μπορεί επίσης να γειώσει ανθρώπινα βασικά σημεία ενώ δημιουργία κειμένου σε εικόνα.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
Business Αναφορά ειδήσεων Τεχνολογία
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
3 Μαΐου 2024
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
3 Μαΐου 2024
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
3 Μαΐου 2024
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
Business Αναφορά ειδήσεων Τεχνολογία
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
3 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.