Νέο μοντέλο κειμένου σε εικόνα Το GigaGAN μπορεί να δημιουργήσει εικόνες 4K σε 3.66 δευτερόλεπτα
Εν συντομία
Οι ερευνητές ανέπτυξαν ένα νέο μοντέλο κειμένου σε εικόνα που ονομάζεται GigaGAN που μπορεί να δημιουργήσει εικόνες 4K σε 3.66 δευτερόλεπτα.
Βασίζεται στο πλαίσιο GAN (generative adversarial network), το οποίο είναι ένας τύπος νευρικό σύστημα που μπορεί να μάθει να δημιουργεί δεδομένα παρόμοια με ένα σύνολο δεδομένων εκπαίδευσης. Το GigaGAN είναι σε θέση να δημιουργήσει εικόνες 512 px σε 0.13 δευτερόλεπτα, 10 φορές πιο γρήγορα από το προηγούμενο μοντέλο τελευταίας τεχνολογίας, και έχει έναν απομπλεγμένο, συνεχή και ελεγχόμενο λανθάνοντα χώρο.
Μπορεί επίσης να χρησιμοποιηθεί για την εκπαίδευση ενός αποτελεσματικού, υψηλότερης ποιότητας upsampler.
Οι ερευνητές ανέπτυξαν ένα νέο μοντέλο κειμένου σε εικόνα που ονομάζεται GigaGAN που μπορεί να δημιουργήσει 4K εικόνες σε 3.66 δευτερόλεπτα. Αυτή είναι μια σημαντική βελτίωση σε σχέση με τα υπάρχοντα μοντέλα κειμένου σε εικόνα, τα οποία μπορεί να χρειαστούν λεπτά ή ακόμα και ώρες για τη δημιουργία μιας μεμονωμένης εικόνας.
Το GigaGAN βασίζεται στο πλαίσιο GAN (generative adversarial network), το οποίο είναι ένας τύπος νευρωνικού δικτύου που μπορεί να μάθει να δημιουργεί δεδομένα παρόμοια με ένα σύνολο δεδομένων εκπαίδευσης. Τα GAN έχουν χρησιμοποιηθεί για τη δημιουργία ρεαλιστικών εικόνων προσώπων, τοπίων, ακόμη και εικόνων Street View.
Διαβάστε περισσότερα: 5+ πιο αναμενόμενα μοντέλα τεχνητής νοημοσύνης από κείμενο σε εικόνα του 2023 |
Το νέο μοντέλο έχει εκπαιδευτεί σε ένα σύνολο δεδομένων 1 δισεκατομμυρίου εικόνων, το οποίο είναι τάξεις μεγέθους μεγαλύτερο από τα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση προηγούμενων μοντέλων από κείμενο σε εικόνα. Ως αποτέλεσμα, το GigaGAN είναι σε θέση να δημιουργήσει εικόνες 512 px σε 0.13 δευτερόλεπτα, κάτι που είναι περισσότερο από 10 φορές ταχύτερο από το προηγούμενο μοντέλο προηγμένης τεχνολογίας κειμένου σε εικόνα.
Επιπλέον, το GigaGAN διαθέτει έναν απομπλεγμένο, συνεχή και ελεγχόμενο λανθάνοντα χώρο. Αυτό σημαίνει ότι το GigaGAN μπορεί να δημιουργήσει εικόνες που έχουν μια ποικιλία διαφορετικών στυλ και ότι οι παραγόμενες εικόνες μπορούν να ελεγχθούν σε κάποιο βαθμό. Για παράδειγμα, το GigaGAN μπορεί να δημιουργήσει εικόνες που διατηρούν τη διάταξη της εισαγωγής κειμένου, κάτι που είναι σημαντικό για εφαρμογές, για παράδειγμα, κατά τη δημιουργία εικόνων διάταξης προϊόντων από περιγραφές κειμένου.
Το GigaGAN μπορεί επίσης να χρησιμοποιηθεί για την εκπαίδευση ενός αποδοτικού, υψηλότερης ποιότητας upsampler. Αυτό μπορεί να εφαρμοστεί σε πραγματικές εικόνες ή σε εξόδους άλλων μοντέλα κειμένου σε εικόνα.
Ένας κλάδος κωδικοποίησης κειμένου, δίκτυο αντιστοίχισης στυλ, δίκτυο σύνθεσης πολλαπλής κλίμακας και σταθερή προσοχή και προσαρμοστική επιλογή πυρήνα αποτελούν όλα μέρος της γεννήτριας GigaGAN. Οι προγραμματιστές ξεκινούν τον κλάδο κωδικοποίησης κειμένου εξάγοντας ενσωματώσεις κειμένου με ένα προεκπαιδευμένο μοντέλο CLIP και επίπεδα εκμάθησης προσοχής Τ. Ομοίως με ΣτυλGAN, η ενσωμάτωση μεταβιβάζεται στο δίκτυο αντιστοίχισης στυλ M, το οποίο δημιουργεί το διάνυσμα στυλ w. Για να δημιουργήσει μια πυραμίδα εικόνας, το δίκτυο σύνθεσης χρησιμοποιεί τώρα τον κώδικα στυλ ως διαμόρφωση και τις ενσωματώσεις κειμένου ως προσοχή. Επιπλέον, οι προγραμματιστές εισάγουν επιλογή πυρήνα προσαρμοζόμενη σε δείγμα για να επιλέξουν πυρήνες συνέλιξης προσαρμοστικά με βάση τη ρύθμιση του κειμένου εισαγωγής.
Ο διαχωριστής, όπως και η γεννήτρια, έχει δύο κλάδους για την επεξεργασία της εικόνας και τη ρύθμιση του κειμένου. Ο κλάδος κειμένου, όπως και η γεννήτρια, επεξεργάζεται κείμενο. Στον κλάδο της εικόνας δίνεται μια πυραμίδα εικόνας και έχει ως αποστολή να κάνει ανεξάρτητες προβλέψεις για κάθε κλίμακα εικόνας. Επιπλέον, γίνονται προβλέψεις σε όλες τις επακόλουθες κλίμακες στρώματος μείωσης δειγματοληψίας. Πρόσθετες απώλειες χρησιμοποιούνται επίσης για την ενθάρρυνση της αποτελεσματικής σύγκλισης.
Όπως φαίνεται στο πλέγμα παρεμβολής, το GigaGAN επιτρέπει την ομαλή παρεμβολή μεταξύ των προτροπών. Οι τέσσερις γωνίες δημιουργούνται χρησιμοποιώντας τα ίδια λανθάνοντα z αλλά διαφορετικά μηνύματα κειμένου.
Επειδή το GigaGAN διατηρεί έναν απομπλεγμένο λανθάνοντα χώρο, οι προγραμματιστές μπορούν να συνδυάσουν το χονδροειδές στυλ ενός δείγματος με το κομψό στυλ ενός άλλου. Το GigaGAN μπορεί επίσης να ελέγξει το στυλ απευθείας με μηνύματα κειμένου.
Διαβάστε περισσότερα σχετικά άρθρα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.