Αναφορά ειδήσεων
Μαρτίου 20, 2023

Νέο μοντέλο κειμένου σε εικόνα Το GigaGAN μπορεί να δημιουργήσει εικόνες 4K σε 3.66 δευτερόλεπτα

Εν συντομία

Οι ερευνητές ανέπτυξαν ένα νέο μοντέλο κειμένου σε εικόνα που ονομάζεται GigaGAN που μπορεί να δημιουργήσει εικόνες 4K σε 3.66 δευτερόλεπτα.

Βασίζεται στο πλαίσιο GAN (generative adversarial network), το οποίο είναι ένας τύπος νευρικό σύστημα που μπορεί να μάθει να δημιουργεί δεδομένα παρόμοια με ένα σύνολο δεδομένων εκπαίδευσης. Το GigaGAN είναι σε θέση να δημιουργήσει εικόνες 512 px σε 0.13 δευτερόλεπτα, 10 φορές πιο γρήγορα από το προηγούμενο μοντέλο τελευταίας τεχνολογίας, και έχει έναν απομπλεγμένο, συνεχή και ελεγχόμενο λανθάνοντα χώρο.

Μπορεί επίσης να χρησιμοποιηθεί για την εκπαίδευση ενός αποτελεσματικού, υψηλότερης ποιότητας upsampler.

Οι ερευνητές ανέπτυξαν ένα νέο μοντέλο κειμένου σε εικόνα που ονομάζεται GigaGAN που μπορεί να δημιουργήσει 4K εικόνες σε 3.66 δευτερόλεπτα. Αυτή είναι μια σημαντική βελτίωση σε σχέση με τα υπάρχοντα μοντέλα κειμένου σε εικόνα, τα οποία μπορεί να χρειαστούν λεπτά ή ακόμα και ώρες για τη δημιουργία μιας μεμονωμένης εικόνας.

Το νέο μοντέλο κειμένου σε εικόνα GigaGAN μπορεί να δημιουργήσει εικόνες 4K στα 3.66 δευτερόλεπτα

Το GigaGAN βασίζεται στο πλαίσιο GAN (generative adversarial network), το οποίο είναι ένας τύπος νευρωνικού δικτύου που μπορεί να μάθει να δημιουργεί δεδομένα παρόμοια με ένα σύνολο δεδομένων εκπαίδευσης. Τα GAN έχουν χρησιμοποιηθεί για τη δημιουργία ρεαλιστικών εικόνων προσώπων, τοπίων, ακόμη και εικόνων Street View.

Διαβάστε περισσότερα: 5+ πιο αναμενόμενα μοντέλα τεχνητής νοημοσύνης από κείμενο σε εικόνα του 2023

Το νέο μοντέλο έχει εκπαιδευτεί σε ένα σύνολο δεδομένων 1 δισεκατομμυρίου εικόνων, το οποίο είναι τάξεις μεγέθους μεγαλύτερο από τα σύνολα δεδομένων που χρησιμοποιούνται για την εκπαίδευση προηγούμενων μοντέλων από κείμενο σε εικόνα. Ως αποτέλεσμα, το GigaGAN είναι σε θέση να δημιουργήσει εικόνες 512 px σε 0.13 δευτερόλεπτα, κάτι που είναι περισσότερο από 10 φορές ταχύτερο από το προηγούμενο μοντέλο προηγμένης τεχνολογίας κειμένου σε εικόνα.

Επιπλέον, το GigaGAN διαθέτει έναν απομπλεγμένο, συνεχή και ελεγχόμενο λανθάνοντα χώρο. Αυτό σημαίνει ότι το GigaGAN μπορεί να δημιουργήσει εικόνες που έχουν μια ποικιλία διαφορετικών στυλ και ότι οι παραγόμενες εικόνες μπορούν να ελεγχθούν σε κάποιο βαθμό. Για παράδειγμα, το GigaGAN μπορεί να δημιουργήσει εικόνες που διατηρούν τη διάταξη της εισαγωγής κειμένου, κάτι που είναι σημαντικό για εφαρμογές, για παράδειγμα, κατά τη δημιουργία εικόνων διάταξης προϊόντων από περιγραφές κειμένου.

Το GigaGAN μπορεί επίσης να χρησιμοποιηθεί για την εκπαίδευση ενός αποδοτικού, υψηλότερης ποιότητας upsampler. Αυτό μπορεί να εφαρμοστεί σε πραγματικές εικόνες ή σε εξόδους άλλων μοντέλα κειμένου σε εικόνα.

Ένας κλάδος κωδικοποίησης κειμένου, δίκτυο αντιστοίχισης στυλ, δίκτυο σύνθεσης πολλαπλής κλίμακας και σταθερή προσοχή και προσαρμοστική επιλογή πυρήνα αποτελούν όλα μέρος της γεννήτριας GigaGAN. Οι προγραμματιστές ξεκινούν τον κλάδο κωδικοποίησης κειμένου εξάγοντας ενσωματώσεις κειμένου με ένα προεκπαιδευμένο μοντέλο CLIP και επίπεδα εκμάθησης προσοχής Τ. Ομοίως με ΣτυλGAN, η ενσωμάτωση μεταβιβάζεται στο δίκτυο αντιστοίχισης στυλ M, το οποίο δημιουργεί το διάνυσμα στυλ w. Για να δημιουργήσει μια πυραμίδα εικόνας, το δίκτυο σύνθεσης χρησιμοποιεί τώρα τον κώδικα στυλ ως διαμόρφωση και τις ενσωματώσεις κειμένου ως προσοχή. Επιπλέον, οι προγραμματιστές εισάγουν επιλογή πυρήνα προσαρμοζόμενη σε δείγμα για να επιλέξουν πυρήνες συνέλιξης προσαρμοστικά με βάση τη ρύθμιση του κειμένου εισαγωγής.

Ο διαχωριστής, όπως και η γεννήτρια, έχει δύο κλάδους για την επεξεργασία της εικόνας και τη ρύθμιση του κειμένου. Ο κλάδος κειμένου, όπως και η γεννήτρια, επεξεργάζεται κείμενο. Στον κλάδο της εικόνας δίνεται μια πυραμίδα εικόνας και έχει ως αποστολή να κάνει ανεξάρτητες προβλέψεις για κάθε κλίμακα εικόνας. Επιπλέον, γίνονται προβλέψεις σε όλες τις επακόλουθες κλίμακες στρώματος μείωσης δειγματοληψίας. Πρόσθετες απώλειες χρησιμοποιούνται επίσης για την ενθάρρυνση της αποτελεσματικής σύγκλισης.

Όπως φαίνεται στο πλέγμα παρεμβολής, το GigaGAN επιτρέπει την ομαλή παρεμβολή μεταξύ των προτροπών. Οι τέσσερις γωνίες δημιουργούνται χρησιμοποιώντας τα ίδια λανθάνοντα z αλλά διαφορετικά μηνύματα κειμένου.

Επειδή το GigaGAN διατηρεί έναν απομπλεγμένο λανθάνοντα χώρο, οι προγραμματιστές μπορούν να συνδυάσουν το χονδροειδές στυλ ενός δείγματος με το κομψό στυλ ενός άλλου. Το GigaGAN μπορεί επίσης να ελέγξει το στυλ απευθείας με μηνύματα κειμένου.

Διαβάστε περισσότερα σχετικά άρθρα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα

Οι ιδρυτές του πορτοφολιού Samourai κατηγορούνται για διευκόλυνση $2 δις σε προσφορές Darknet

Η σύλληψη των ιδρυτών του Samourai Wallet αντιπροσωπεύει μια αξιοσημείωτη οπισθοδρόμηση για τον κλάδο, υπογραμμίζοντας την επίμονη ...

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
Business Αναφορά ειδήσεων Τεχνολογία
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
2 Μαΐου 2024
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
Business Αναφορά ειδήσεων Τεχνολογία
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
2 Μαΐου 2024
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
Business Αναφορά ειδήσεων Τεχνολογία
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
2 Μαΐου 2024
Μέλος του Νομοθετικού Συμβουλίου του Χονγκ Κονγκ, ο Wu Jiezhuang υποβάλλει πολιτική αγωγή κατά της ανταλλαγής κρυπτογράφησης JPEX
Business Αναφορά ειδήσεων Τεχνολογία
Μέλος του Νομοθετικού Συμβουλίου του Χονγκ Κονγκ, ο Wu Jiezhuang υποβάλλει πολιτική αγωγή κατά της ανταλλαγής κρυπτογράφησης JPEX
2 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.