Νοέμβριος 23, 2022

Η Sber AI παρουσίασε το Kandinsky 2.0, το πρώτο μοντέλο κειμένου σε εικόνα για δημιουργία σε περισσότερες από 100 γλώσσες

Δημοσιεύθηκε: 23 Νοεμβρίου 2022 στις 1:23 Ενημερώθηκε: 23 Νοεμβρίου 2022 στις 1:23 μ.μ.

Εν συντομία

Το Kandinsky 2.0, το πρώτο πολύγλωσσο μοντέλο διάχυσης, δημιουργήθηκε και εκπαιδεύτηκε από ερευνητές Sber AI με τη βοήθεια ερευνητών από το Ινστιτούτο Τεχνητής Νοημοσύνης AI χρησιμοποιώντας το συνδυασμένο σύνολο δεδομένων 1 δισεκατομμυρίου ζευγών κειμένου-εικόνων από Sber AI και SberDevices

Η διάχυση αντικαθιστά ολοένα και περισσότερο τα GAN και τα αυτοπαλινδρομικά μοντέλα σε μια σειρά από εργασίες επεξεργασίας ψηφιακής εικόνας. Αυτό δεν προκαλεί έκπληξη, επειδή η διάχυση είναι πιο εύκολη στην εκμάθηση, δεν απαιτεί πολύπλοκη επιλογή υπερπαραμέτρων, βελτιστοποίηση ελάχιστης μέγιστης τιμής και δεν υποφέρει από αστάθεια μάθησης. Και το πιο σημαντικό, τα μοντέλα διάχυσης επιδεικνύουν αποτελέσματα τελευταίας τεχνολογίας σε όλες σχεδόν τις εργασίες παραγωγής — δημιουργία εικόνων ανά κείμενο, παραγωγή ήχου, βίντεο και ακόμη 3D.

Η Sber AI παρουσίασε το Kandinsky 2.0, το πρώτο μοντέλο κειμένου σε εικόνα για δημιουργία σε περισσότερες από 100 γλώσσες — Η εικόνα που δημιουργήθηκε από την Kandinsky AI

Δυστυχώς, το μεγαλύτερο μέρος της εργασίας στον τομέα της μετατροπής κειμένου σε κάτι επικεντρώνεται μόνο στα αγγλικά και τα κινέζικα. Για να διορθώσει αυτή την αδικία, η Sber AI αποφάσισε να δημιουργήσει ένα πολύγλωσσο μοντέλο διάχυσης κειμένου σε εικόνα Kandinsky 2.0, το οποίο κατανοεί ερωτήματα σε περισσότερες από 100 γλώσσες. Πρόσωπο αγκαλιάς προσφέρει ήδη το Kandinsky 2.0. Ερευνητές από το SberAI και το SberDevices έχουν συνεργάστηκαν με ειδικούς από το Ινστιτούτο Τεχνητής Νοημοσύνης AI για αυτό το έργο.

Τι είναι η διάχυση;

Στο άρθρο του 2015 Βαθιά μάθηση χωρίς επίβλεψη με χρήση θερμοδυναμικής μη ισορροπίας, τα μοντέλα διάχυσης περιγράφηκαν αρχικά ως η πράξη ανάμειξης μιας ουσίας με αποτέλεσμα τη διάχυση, η οποία εξισώνει την κατανομή. Όπως υπονοεί ο τίτλος του άρθρου, προσέγγισαν την εξήγηση των μοντέλων διάχυσης μέσα από το πλαίσιο της θερμοδυναμικής.

Στην περίπτωση των εικόνων, μια τέτοια διαδικασία μπορεί να μοιάζει, για παράδειγμα, με τη σταδιακή αφαίρεση του Gaussian θορύβου από την εικόνα.

Τα χάρτινα μοντέλα διάχυσης Χτυπάμε Το GANs on Image Synthesis, που δημοσιεύτηκε το 2021, ήταν το πρώτο που έδειξε την υπεροχή των μοντέλων διάχυσης έναντι του GANS. Οι συγγραφείς επινόησαν επίσης την προσέγγιση ελέγχου πρώτης γενιάς (conditioning), την οποία ονόμασαν καθοδήγηση ταξινομητή. Αυτή η μέθοδος δημιουργεί αντικείμενα που ταιριάζουν στην προβλεπόμενη κλάση χρησιμοποιώντας διαβαθμίσεις από διαφορετικό ταξινομητή (για παράδειγμα, dogs). Μέσω του μηχανισμού Adaptive Group Norm, που περιλαμβάνει την πρόβλεψη των συντελεστών κανονικοποίησης, πραγματοποιείται ο ίδιος ο έλεγχος.

Αυτό το άρθρο μπορεί να θεωρηθεί ως σημείο καμπής στον τομέα της γενετικής τεχνητής νοημοσύνης, που οδηγεί πολλούς να στραφούν στη μελέτη της διάχυσης. Νέα άρθρα για κείμενο σε βίντεο, μετατροπή κειμένου σε 3D, εικόνα βαφή, παραγωγή ήχου, διάχυση για υπερανάλυση, και ακόμη και η δημιουργία κίνησης άρχισε να εμφανίζεται κάθε λίγες εβδομάδες.

Διάχυση κειμένου σε εικόνα

Όπως αναφέραμε προηγουμένως, η μείωση θορύβου και η εξάλειψη θορύβου είναι συνήθως τα κύρια συστατικά των διαδικασιών διάχυσης στο πλαίσιο των τρόπων εικόνας, έτσι το UNet και οι πολλές παραλλαγές του χρησιμοποιούνται συχνά ως η θεμελιώδης αρχιτεκτονική.

Είναι σημαντικό αυτό το κείμενο να λαμβάνεται υπόψη κατά κάποιο τρόπο κατά τη διάρκεια της γενιάς για να δημιουργηθεί μια εικόνα με βάση αυτό. Οι συγγραφείς του OpenAI άρθρο για το μοντέλο GLIDE πρότεινε την τροποποίηση της προσέγγισης καθοδήγησης χωρίς ταξινομητή για κείμενο.

Η χρήση παγωμένων προ-ακτινοβολημένων κωδικοποιητών κειμένου και ο μηχανισμός βελτίωσης της ανάλυσης καταρράκτη στο μέλλον βελτίωσαν σημαντικά την παραγωγή κειμένου (Εικόνα). Αποδείχθηκε ότι δεν υπήρχε ανάγκη να εκπαιδεύσετε το τμήμα κειμένου του μοντέλα κειμένου σε εικόνα καθώς η χρήση του παγωμένου T5-xxl οδήγησε σε σημαντικά βελτιωμένη ποιότητα εικόνας και κατανόηση κειμένου και χρησιμοποίησε πολύ λιγότερους πόρους εκπαίδευσης.

Οι συγγραφείς ενός Λανθάνουσα Διάχυση άρθρο έδειξε ότι το στοιχείο εικόνας στην πραγματικότητα δεν απαιτεί εκπαίδευση (τουλάχιστον όχι πλήρως). Η εκμάθηση θα προχωρήσει ακόμη πιο γρήγορα εάν χρησιμοποιήσουμε έναν ισχυρό αυτόματο κωδικοποιητή εικόνας (VQ-VAE ή KL-VAE) ως οπτικό αποκωδικοποιητή και προσπαθήσουμε να δημιουργήσουμε ενσωματώσεις από τον λανθάνοντα χώρο του με διάχυση και όχι από την ίδια την εικόνα. Αυτή η μεθοδολογία είναι επίσης το θεμέλιο του πρόσφατα κυκλοφόρησε Stable Diffusion μοντέλο.

Μοντέλο Kandinsky 2.0 AI

Με μερικές βασικές βελτιώσεις, το Kandinsky 2.0 βασίζεται σε μια βελτιωμένη τεχνική λανθάνουσας διάχυσης (δεν δημιουργούμε εικόνες, αλλά μάλλον τα λανθάνοντα διανύσματά τους):

Χρησιμοποίησε δύο πολύγλωσσους κωδικοποιητές κειμένου και συνέδεσε τις ενσωματώσεις τους.
Προστέθηκε UNet (1.2 δισεκατομμύρια παράμετροι).
Διαδικασία δειγματοληψίας Δυναμικό κατώφλι.

Οι ερευνητές χρησιμοποίησαν δύο πολύγλωσσους κωδικοποιητές ταυτόχρονα —κλίπ XLMR και μικρότερο mT5— προκειμένου να μοντέλο πραγματικά πολύγλωσσο. Επομένως, εκτός από τα Αγγλικά, τα Ρωσικά, τα Γαλλικά και τα Γερμανικά, το μοντέλο μπορεί επίσης να κατανοήσει γλώσσες όπως τα μογγολικά, τα εβραϊκά και τα φαρσί. Το AI γνωρίζει συνολικά 101 γλώσσες. Γιατί αποφασίστηκε η κωδικοποίηση κειμένου χρησιμοποιώντας δύο μοντέλα ταυτόχρονα; Δεδομένου ότι το XLMR-clip έχει δει εικόνες και παρέχει στενές ενσωματώσεις για διάφορες γλώσσες και το mT5-small είναι ικανό να κατανοεί πολύπλοκα κείμενα, αυτά τα μοντέλα έχουν διαφορετικά αλλά κρίσιμα χαρακτηριστικά. Δεδομένου ότι και τα δύο μοντέλα έχουν μόνο μικρό αριθμό παραμέτρων (560M και 146M), όπως αποδεικνύεται από τις προκαταρκτικές δοκιμές μας, αποφασίστηκε να χρησιμοποιηθούν δύο κωδικοποιητές ταυτόχρονα.

Πρόσφατες εικόνες που δημιουργήθηκαν από το μοντέλο Kandinsky 2.0 AI παρακάτω:

Πώς έγινε η εκπαίδευση μοντέλου Kandinsky 2.0;

Οι υπερυπολογιστές Christofari χρησιμοποιήθηκαν για την εκπαίδευση στην πλατφόρμα ML Space. Απαιτούσε 196 κάρτες NVIDIA A100, η καθεμία με 80 GB RAM. Χρειάστηκαν 14 ημέρες, ή 65,856 ώρες GPU, για να ολοκληρωθεί η εκπαίδευση. Η ανάλυση διήρκεσε πέντε ημέρες σε ανάλυση 256 × 256, ακολουθούμενη από έξι ημέρες σε ανάλυση 512 × 512, και στη συνέχεια επιπλέον τρεις ημέρες για τα πιο καθαρά δεδομένα.

Ως δεδομένα εκπαίδευσης, συνδυάστηκαν πολλά σύνολα δεδομένων που είχαν προφιλτραριστεί για υδατογραφήματα, χαμηλή ανάλυση και χαμηλή τήρηση της περιγραφής του κειμένου, όπως μετρήθηκε με τη μέτρηση βαθμολογίας CLIP.

Πολύγλωσση γενιά

Το Kandinsky 2.0 είναι το πρώτο πολύγλωσσο μοντέλο για τη δημιουργία εικόνων από λέξεις, δίνοντάς μας την πρώτη ευκαιρία να αξιολογήσουμε γλωσσικές και οπτικές αλλαγές μεταξύ των γλωσσικών πολιτισμών. Τα αποτελέσματα της μετάφρασης του ίδιου ερωτήματος σε πολλές γλώσσες φαίνονται παρακάτω. Για παράδειγμα, μόνο λευκοί άνδρες εμφανίζονται στα αποτελέσματα της γενιάς για το ρωσικό ερώτημα «ένα άτομο με ανώτερη εκπαίδευση», ενώ τα αποτελέσματα για τη γαλλική μετάφραση, «Photo d'une personne diplômée de l'enseignement supérieur», είναι πιο διαφοροποιημένα. Θα ήθελα να επισημάνω ότι οι θλιμμένοι με τριτοβάθμια εκπαίδευση είναι παρόντες μόνο στη ρωσική έκδοση.

Αν και υπάρχουν ακόμη ένας τόνος δοκιμών με τεράστια γλωσσικά μοντέλα και προγραμματισμένες διαφορετικές μεθόδους της διαδικασίας διάχυσης, μπορούμε ήδη να δηλώσουμε με σιγουριά ότι το Kandinsky 2.0 είναι το πρώτο εντελώς πολύγλωσσο μοντέλο διάδοσης! Στο Ιστοσελίδα FusionBrain και google colab, μπορείτε να δείτε παραδείγματα των σχεδίων της.

Διαβάστε περισσότερα για το AI:

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ