Ιούνιος 12, 2023

Κορυφαία 30+ μοντέλα μετασχηματιστών στην τεχνητή νοημοσύνη: Τι είναι και πώς λειτουργούν

Δημοσιεύθηκε: 12 Ιουνίου 2023 στις 6:52 π.μ. Ενημερώθηκε: 12 Ιουνίου 2023 στις 6:52 π.μ.

Επεξεργάστηκε και επαληθεύτηκε: 12 Ιουνίου 2023 στις 6:52 π.μ.

Τους τελευταίους μήνες, πολλά μοντέλα Transformer έχουν εμφανιστεί στην τεχνητή νοημοσύνη, το καθένα με μοναδικά και μερικές φορές διασκεδαστικά ονόματα. Ωστόσο, αυτά τα ονόματα μπορεί να μην παρέχουν πολλές πληροφορίες για το τι κάνουν στην πραγματικότητα αυτά τα μοντέλα. Αυτό το άρθρο στοχεύει να παρέχει μια ολοκληρωμένη και απλή λίστα με τα πιο δημοφιλή μοντέλα Transformer. Θα ταξινομήσει αυτά τα μοντέλα και θα εισάγει επίσης σημαντικές πτυχές και καινοτομίες στην οικογένεια Transformer. Η κορυφαία λίστα θα καλύψει εκπαιδευμένα μοντέλα μέσω αυτοεποπτευόμενης μάθησης, όπως BERT ή GPT-3, καθώς και μοντέλα που υποβάλλονται σε πρόσθετη εκπαίδευση με ανθρώπινη συμμετοχή, όπως το InstructGPT μοντέλο που χρησιμοποιείται από ChatGPT.

Pro Συμβουλές
Αυτός ο οδηγός έχει σχεδιαστεί για να παρέχει ολοκληρωμένες γνώσεις και πρακτικές δεξιότητες στην άμεση μηχανική για αρχάριους έως προχωρημένους μαθητές.
Υπάρχουν πολλά μαθήματα διαθέσιμο για άτομα που θέλουν να μάθουν περισσότερα για την τεχνητή νοημοσύνη και τις σχετικές τεχνολογίες της.
Ρίξτε μια ματιά στο κορυφαίοι 10+ επιταχυντές AI που αναμένεται να ηγηθούν της αγοράς όσον αφορά τις επιδόσεις.

Πίνακας περιεχομένων

Τι είναι οι μετασχηματιστές στο AI;
Τι είναι οι κωδικοποιητές και οι αποκωδικοποιητές στο AI;
Τι είναι τα επίπεδα προσοχής στο AI;
Τι είναι τα βελτιωμένα μοντέλα στο AI;
Γιατί τα Transformers είναι το μέλλον της τεχνητής νοημοσύνης;
3 Τύποι Αρχιτεκτονικών Προεκπαίδευσης
8 Τύποι εργασιών για προεκπαιδευμένα μοντέλα
Κορυφαίοι 30+ μετασχηματιστές στο AI
FAQs

Τι είναι οι μετασχηματιστές στο AI;

Οι μετασχηματιστές είναι ένας τύπος μοντέλων βαθιάς μάθησης που εισήχθησαν σε μια ερευνητική εργασία που ονομάζεται "Η προσοχή είναι το μόνο που χρειάζεστε" από ερευνητές της Google το 2017. Αυτή η εργασία έχει κερδίσει τεράστια αναγνώριση, συγκεντρώνοντας πάνω από 38,000 αναφορές σε μόλις πέντε χρόνια.

Η αρχική αρχιτεκτονική του Transformer είναι μια συγκεκριμένη μορφή μοντέλων κωδικοποιητή-αποκωδικοποιητή που είχε αποκτήσει δημοτικότητα πριν από την εισαγωγή του. Αυτά τα μοντέλα βασίζονταν κατά κύριο λόγο LS ™ και άλλες παραλλαγές των επαναλαμβανόμενων νευρωνικών δικτύων (RNN), με την προσοχή να είναι μόνο ένας από τους μηχανισμούς που χρησιμοποιήθηκαν. Ωστόσο, το έγγραφο του Transformer πρότεινε μια επαναστατική ιδέα ότι η προσοχή θα μπορούσε να χρησιμεύσει ως ο μοναδικός μηχανισμός για τη δημιουργία εξαρτήσεων μεταξύ εισόδου και εξόδου.

Τι είναι οι μετασχηματιστές στο AI; — Πίστωση: dominodatalab.com

Στο πλαίσιο των Transformers, η είσοδος αποτελείται από μια ακολουθία διακριτικών, τα οποία μπορεί να είναι λέξεις ή υπολέξεις στην επεξεργασία φυσικής γλώσσας (NLP). Οι υπολέξεις χρησιμοποιούνται συνήθως σε μοντέλα NLP για την αντιμετώπιση του ζητήματος των λέξεων εκτός λεξιλογίου. Η έξοδος του κωδικοποιητή παράγει μια αναπαράσταση σταθερών διαστάσεων για κάθε διακριτικό, μαζί με μια ξεχωριστή ενσωμάτωση για ολόκληρη την ακολουθία. Ο αποκωδικοποιητής παίρνει την έξοδο του κωδικοποιητή και παράγει μια ακολουθία από διακριτικά ως έξοδο του.

Από τη δημοσίευση του χαρτιού Transformer, δημοφιλή μοντέλα όπως ΜΠΕΡΤ και GPT έχουν υιοθετήσει πτυχές της αρχικής αρχιτεκτονικής, είτε χρησιμοποιώντας τα στοιχεία του κωδικοποιητή είτε του αποκωδικοποιητή. Η βασική ομοιότητα μεταξύ αυτών των μοντέλων έγκειται στην αρχιτεκτονική των επιπέδων, η οποία ενσωματώνει μηχανισμούς αυτοπροσοχής και επίπεδα τροφοδοσίας προς τα εμπρός. Στους Transformers, κάθε διακριτικό εισόδου διασχίζει τη δική του διαδρομή μέσα από τα επίπεδα, ενώ διατηρεί άμεσες εξαρτήσεις με κάθε άλλο διακριτικό στην ακολουθία εισόδου. Αυτό το μοναδικό χαρακτηριστικό επιτρέπει τον παράλληλο και αποτελεσματικό υπολογισμό των συμφραζόμενων αναπαραστάσεων διακριτικών, μια δυνατότητα που δεν είναι εφικτή με διαδοχικά μοντέλα όπως τα RNN.

Αν και αυτό το άρθρο χαράζει μόνο την επιφάνεια της αρχιτεκτονικής του Transformer, παρέχει μια ματιά στις θεμελιώδεις πτυχές του. Για μια πιο ολοκληρωμένη κατανόηση, συνιστούμε να ανατρέξετε στην αρχική ερευνητική εργασία ή στη δημοσίευση του Illustrated Transformer.

Τι είναι οι κωδικοποιητές και οι αποκωδικοποιητές στο AI;

Φανταστείτε ότι έχετε δύο μοντέλα, έναν κωδικοποιητή και έναν αποκωδικοποιητή, εργάζονται μαζί σαν ομάδα. Ο κωδικοποιητής λαμβάνει μια είσοδο και τη μετατρέπει σε ένα διάνυσμα σταθερού μήκους. Στη συνέχεια, ο αποκωδικοποιητής παίρνει αυτό το διάνυσμα και το μετατρέπει σε μια ακολουθία εξόδου. Αυτά τα μοντέλα εκπαιδεύονται μαζί για να διασφαλιστεί ότι η έξοδος ταιριάζει με την είσοδο όσο το δυνατόν περισσότερο.

Τόσο ο κωδικοποιητής όσο και ο αποκωδικοποιητής είχαν πολλά επίπεδα. Κάθε στρώμα στον κωδικοποιητή είχε δύο υποστρώματα: ένα στρώμα αυτοπροσοχής πολλαπλών κεφαλών και ένα απλό δίκτυο προώθησης τροφοδοσίας. Το επίπεδο αυτοπροσοχής βοηθά κάθε διακριτικό στην είσοδο να κατανοήσει τις σχέσεις με όλα τα άλλα διακριτικά. Αυτά τα υποστρώματα έχουν επίσης μια υπολειπόμενη σύνδεση και μια κανονικοποίηση στρώματος για να κάνουν τη διαδικασία εκμάθησης πιο ομαλή.

Η πολλαπλή κεφαλή του αποκωδικοποιητή στρώμα αυτοπροσοχής λειτουργεί λίγο διαφορετικά από αυτό στον κωδικοποιητή. Καλύπτει τα διακριτικά στα δεξιά του διακριτικού στο οποίο εστιάζει. Αυτό διασφαλίζει ότι ο αποκωδικοποιητής κοιτάζει μόνο τα διακριτικά που προηγούνται αυτού που προσπαθεί να προβλέψει. Αυτή η καλυμμένη προσοχή πολλαπλών κεφαλών βοηθά τον αποκωδικοποιητή να παράγει ακριβείς προβλέψεις. Επιπλέον, ο αποκωδικοποιητής περιλαμβάνει ένα άλλο υποστρώμα, το οποίο είναι ένα στρώμα προσοχής πολλαπλών κεφαλών σε όλες τις εξόδους από τον κωδικοποιητή.

Είναι σημαντικό να σημειωθεί ότι αυτές οι συγκεκριμένες λεπτομέρειες έχουν τροποποιηθεί σε διαφορετικές παραλλαγές του μοντέλου Transformer. Μοντέλα όπως το BERT και GPT, για παράδειγμα, βασίζονται είτε στην πτυχή του κωδικοποιητή είτε στον αποκωδικοποιητή της αρχικής αρχιτεκτονικής.

Τι είναι τα επίπεδα προσοχής στο AI;

Στην αρχιτεκτονική του μοντέλου που συζητήσαμε προηγουμένως, τα επίπεδα προσοχής πολλαπλών κεφαλών είναι τα ειδικά στοιχεία που το καθιστούν ισχυρό. Τι είναι όμως ακριβώς η προσοχή; Σκεφτείτε το ως μια συνάρτηση που αντιστοιχίζει μια ερώτηση σε ένα σύνολο πληροφοριών και δίνει ένα αποτέλεσμα. Κάθε διακριτικό στην είσοδο έχει ένα ερώτημα, ένα κλειδί και μια τιμή που σχετίζεται με αυτό. Η αναπαράσταση εξόδου κάθε διακριτικού υπολογίζεται λαμβάνοντας ένα σταθμισμένο άθροισμα των τιμών, όπου το βάρος για κάθε τιμή καθορίζεται από το πόσο καλά ταιριάζει με το ερώτημα.

Οι μετασχηματιστές χρησιμοποιούν μια συνάρτηση συμβατότητας που ονομάζεται προϊόν κλίμακας κουκκίδων για τον υπολογισμό αυτών των βαρών. Το ενδιαφέρον με την προσοχή στο Transformers είναι ότι κάθε διακριτικό περνά από τη δική του διαδρομή υπολογισμού, επιτρέποντας τον παράλληλο υπολογισμό όλων των διακριτικών στην ακολουθία εισόδου. Είναι απλά πολλαπλά μπλοκ προσοχής που υπολογίζουν ανεξάρτητα τις αναπαραστάσεις για κάθε διακριτικό. Αυτές οι αναπαραστάσεις στη συνέχεια συνδυάζονται για να δημιουργήσουν την τελική αναπαράσταση του διακριτικού.

Σε σύγκριση με άλλους τύπους δικτύων όπως τα επαναλαμβανόμενα και συνελικτικά δίκτυα, τα επίπεδα προσοχής έχουν μερικά πλεονεκτήματα. Είναι υπολογιστικά αποδοτικά, που σημαίνει ότι μπορούν να επεξεργάζονται γρήγορα πληροφορίες. Έχουν επίσης υψηλότερη συνδεσιμότητα, η οποία είναι χρήσιμη για την αποτύπωση μακροχρόνιων σχέσεων σε ακολουθίες.

Τι είναι τα βελτιωμένα μοντέλα στο AI;

Μοντέλα θεμελίωσης είναι ισχυρά μοντέλα που εκπαιδεύονται σε μεγάλο όγκο γενικών δεδομένων. Στη συνέχεια, μπορούν να προσαρμοστούν ή να βελτιστοποιηθούν για συγκεκριμένες εργασίες, εκπαιδεύοντάς τους σε ένα μικρότερο σύνολο δεδομένα για συγκεκριμένους στόχους. Αυτή η προσέγγιση, που έγινε δημοφιλής από τους Χαρτί BERT, έχει οδηγήσει στην κυριαρχία των μοντέλων που βασίζονται σε Transformer σε εργασίες μηχανικής εκμάθησης που σχετίζονται με τη γλώσσα.

Στην περίπτωση μοντέλων όπως το BERT, παράγουν αναπαραστάσεις διακριτικών εισόδου, αλλά δεν εκτελούν συγκεκριμένες εργασίες από μόνα τους. Για να γίνουν χρήσιμα, επιπλέον νευρωνικά στρώματα προστίθενται στην κορυφή και το μοντέλο εκπαιδεύεται από άκρο σε άκρο, μια διαδικασία γνωστή ως λεπτομέρεια. Ωστόσο, με γενετικά μοντέλα Μου αρέσει GPT, η προσέγγιση είναι ελαφρώς διαφορετική. GPT είναι ένα μοντέλο γλώσσας αποκωδικοποιητή εκπαιδευμένο να προβλέπει την επόμενη λέξη σε μια πρόταση. Με την εκπαίδευση σε τεράστιες ποσότητες δεδομένων ιστού, GPT μπορεί να δημιουργήσει λογικά αποτελέσματα με βάση ερωτήματα εισόδου ή προτροπές.

Για να κάνετε GPT πιο χρήσιμο, OpenAI αναπτύχθηκαν ερευνητές ΕντολήGPT, το οποίο είναι εκπαιδευμένο να ακολουθεί ανθρώπινες οδηγίες. Αυτό επιτυγχάνεται με μικρορύθμιση GPT χρησιμοποιώντας δεδομένα με ανθρώπινη ετικέτα από διάφορες εργασίες. ΕντολήGPT είναι ικανό να εκτελεί ένα ευρύ φάσμα εργασιών και χρησιμοποιείται από δημοφιλείς κινητήρες όπως ChatGPT.

Η μικρορύθμιση μπορεί επίσης να χρησιμοποιηθεί για τη δημιουργία παραλλαγών μοντέλων θεμελίωσης βελτιστοποιημένων για συγκεκριμένους σκοπούς πέρα από τη μοντελοποίηση της γλώσσας. Για παράδειγμα, υπάρχουν μοντέλα βελτιωμένα για εργασίες που σχετίζονται με σημασιολογικά θέματα, όπως ταξινόμηση κειμένου και ανάκτηση αναζήτησης. Επιπλέον, οι κωδικοποιητές μετασχηματιστών έχουν βελτιωθεί με επιτυχία σε πολλαπλές εργασίες πλαίσια μάθησης για την εκτέλεση πολλαπλών σημασιολογικών εργασιών χρησιμοποιώντας ένα κοινό μοντέλο.

Σήμερα, η λεπτομέρεια χρησιμοποιείται για τη δημιουργία εκδόσεων μοντέλων θεμελίωσης που μπορούν να χρησιμοποιηθούν από μεγάλο αριθμό χρηστών. Η διαδικασία περιλαμβάνει τη δημιουργία απαντήσεων στην εισαγωγή προτρέπει και βάζει τους ανθρώπους να ταξινομούν τα αποτελέσματα. Αυτή η κατάταξη χρησιμοποιείται για την εκπαίδευση του α μοντέλο ανταμοιβής, το οποίο εκχωρεί βαθμολογίες σε κάθε έξοδο. Ενισχυτική μάθηση με ανθρώπινη ανατροφοδότηση στη συνέχεια χρησιμοποιείται για την περαιτέρω εκπαίδευση του μοντέλου.

Γιατί τα Transformers είναι το μέλλον της τεχνητής νοημοσύνης;

Οι μετασχηματιστές, ένα είδος ισχυρού μοντέλου, παρουσιάστηκαν για πρώτη φορά στον τομέα της γλωσσικής μετάφρασης. Ωστόσο, οι ερευνητές συνειδητοποίησαν γρήγορα ότι τα Transformers θα μπορούσαν να χρησιμοποιηθούν για διάφορες εργασίες που σχετίζονται με τη γλώσσα, εκπαιδεύοντάς τους σε μεγάλο αριθμό κειμένου χωρίς ετικέτα και στη συνέχεια ρυθμίζοντάς τους με ακρίβεια σε ένα μικρότερο σύνολο δεδομένων με ετικέτα. Αυτή η προσέγγιση επέτρεψε στους Transformers να συλλάβουν σημαντικές γνώσεις σχετικά με τη γλώσσα.

Η αρχιτεκτονική Transformer, που αρχικά σχεδιάστηκε για γλωσσικές εργασίες, έχει εφαρμοστεί και σε άλλες εφαρμογές όπως δημιουργία εικόνων, ήχος, μουσική, ακόμα και ενέργειες. Αυτό έχει κάνει τα Transformers βασικό συστατικό στον τομέα της Generative AI, που είναι η αλλαγή σε διάφορες πτυχές της κοινωνίας.

Η διαθεσιμότητα εργαλείων και πλαισίων όπως π.χ PyTorch και TensorFlow έπαιξε καθοριστικό ρόλο στην ευρεία υιοθέτηση των μοντέλων Transformer. Εταιρείες όπως η Huggingface έχουν δημιουργήσει το δικό τους επιχείρηση γύρω από την ιδέα Η εμπορευματοποίηση βιβλιοθηκών Transformer ανοιχτού κώδικα και εξειδικευμένου υλικού, όπως οι πυρήνες Hopper Tensor της NVIDIA, έχουν επιταχύνει περαιτέρω την ταχύτητα εκπαίδευσης και συμπερασμάτων αυτών των μοντέλων.

Μια αξιοσημείωτη εφαρμογή των Transformers είναι ChatGPT, ένα chatbot που κυκλοφόρησε από OpenAI. Έγινε απίστευτα δημοφιλές, προσεγγίζοντας εκατομμύρια χρήστες σε σύντομο χρονικό διάστημα. OpenAI ανακοίνωσε επίσης την απελευθέρωση του GPT-4, μια πιο ισχυρή έκδοση ικανή να επιτύχει ανθρώπινη απόδοση σε εργασίες όπως ιατρικές και νομικές εξετάσεις.

Η επίδραση των Transformers στον τομέα της τεχνητής νοημοσύνης και το ευρύ φάσμα των εφαρμογών τους είναι αναμφισβήτητη. Εχουν μεταμόρφωσε τον τρόπο προσεγγίζουμε εργασίες που σχετίζονται με τη γλώσσα και ανοίγουμε το δρόμο για νέες εξελίξεις στη γενετική τεχνητή νοημοσύνη.

3 Τύποι Αρχιτεκτονικών Προεκπαίδευσης

Η αρχιτεκτονική του Transformer, που αρχικά αποτελείται από έναν Κωδικοποιητή και έναν Αποκωδικοποιητή, έχει εξελιχθεί ώστε να περιλαμβάνει διαφορετικές παραλλαγές με βάση συγκεκριμένες ανάγκες. Ας αναλύσουμε αυτές τις παραλλαγές με απλούς όρους.

Προεκπαίδευση κωδικοποιητή: Αυτά τα μοντέλα επικεντρώνονται στην κατανόηση πλήρων προτάσεων ή αποσπασμάτων. Κατά τη διάρκεια της προεκπαίδευσης, ο κωδικοποιητής χρησιμοποιείται για την αναδόμηση των καλυμμένων διακριτικών στην πρόταση εισαγωγής. Αυτό βοηθά το μοντέλο να μάθει να κατανοεί το συνολικό πλαίσιο. Τέτοια μοντέλα είναι χρήσιμα για εργασίες όπως η ταξινόμηση κειμένου, η συνεπαγωγή και η εξαγωγή ερωτήσεων.
Προεκπαίδευση αποκωδικοποιητή: Τα μοντέλα αποκωδικοποιητών εκπαιδεύονται ώστε να δημιουργούν το επόμενο διακριτικό με βάση την προηγούμενη ακολουθία διακριτικών. Είναι γνωστά ως μοντέλα γλώσσας αυτόματης παλινδρόμησης. Τα επίπεδα αυτοπροσοχής στον αποκωδικοποιητή μπορούν να έχουν πρόσβαση σε διακριτικά μόνο πριν από ένα δεδομένο διακριτικό στην πρόταση. Αυτά τα μοντέλα είναι ιδανικά για εργασίες που περιλαμβάνουν δημιουργία κειμένου.
Μετασχηματιστής (Κωδικοποιητής-Αποκωδικοποιητής) Προεκπαίδευση: Αυτή η παραλλαγή συνδυάζει τόσο τα στοιχεία του κωδικοποιητή όσο και του αποκωδικοποιητή. Τα επίπεδα αυτοπροσοχής του κωδικοποιητή μπορούν να έχουν πρόσβαση σε όλα τα διακριτικά εισόδου, ενώ τα επίπεδα αυτοπροσοχής του αποκωδικοποιητή μπορούν να έχουν πρόσβαση σε διακριτικά μόνο πριν από ένα δεδομένο διακριτικό. Αυτή η αρχιτεκτονική επιτρέπει στον αποκωδικοποιητή να χρησιμοποιεί τις αναπαραστάσεις που μαθαίνει ο κωδικοποιητής. Τα μοντέλα κωδικοποιητή-αποκωδικοποιητή είναι κατάλληλα για εργασίες όπως η περίληψη, η μετάφραση ή η γενετική απάντηση ερωτήσεων.

Οι στόχοι της προκατάρτισης μπορεί να περιλαμβάνουν την αποθορυβοποίηση ή την αιτιώδη μοντελοποίηση γλώσσας. Αυτοί οι στόχοι είναι πιο περίπλοκοι για μοντέλα κωδικοποιητή-αποκωδικοποιητή σε σύγκριση με μοντέλα μόνο με κωδικοποιητή ή μόνο αποκωδικοποιητές. Η αρχιτεκτονική του Transformer έχει διαφορετικές παραλλαγές ανάλογα με την εστίαση του μοντέλου. Είτε πρόκειται για την κατανόηση πλήρων προτάσεων, για τη δημιουργία κειμένου ή για συνδυασμό και των δύο για διάφορες εργασίες, τα Transformers προσφέρουν ευελιξία στην αντιμετώπιση διαφορετικών προκλήσεων που σχετίζονται με τη γλώσσα.

8 Τύποι εργασιών για προεκπαιδευμένα μοντέλα

Όταν εκπαιδεύουμε ένα μοντέλο, πρέπει να του δώσουμε μια εργασία ή έναν στόχο για να μάθουμε. Υπάρχουν διάφορες εργασίες στην επεξεργασία φυσικής γλώσσας (NLP) που μπορούν να χρησιμοποιηθούν για μοντέλα προεκπαίδευσης. Ας αναλύσουμε μερικές από αυτές τις εργασίες με απλούς όρους:

Μοντελοποίηση γλώσσας (LM): Το μοντέλο προβλέπει το επόμενο διακριτικό σε μια πρόταση. Μαθαίνει να κατανοεί το πλαίσιο και να δημιουργεί συνεκτικές προτάσεις.
Αιτιακή μοντελοποίηση γλώσσας: Το μοντέλο προβλέπει το επόμενο διακριτικό σε μια ακολουθία κειμένου, ακολουθώντας μια σειρά από αριστερά προς τα δεξιά. Είναι σαν ένα μοντέλο αφήγησης που δημιουργεί προτάσεις μία λέξη τη φορά.
Μοντελοποίηση γλώσσας προθέματος: Το μοντέλο διαχωρίζει μια ενότητα «πρόθεμα» από την κύρια ακολουθία. Μπορεί να παρακολουθεί οποιοδήποτε διακριτικό εντός του προθέματος και στη συνέχεια δημιουργεί την υπόλοιπη ακολουθία αυτοπαλινδρομικά.
Μοντελοποίηση μάσκας γλώσσας (MLM): Ορισμένα διακριτικά στις προτάσεις εισόδου είναι καλυμμένα και το μοντέλο προβλέπει τα διακριτικά που λείπουν με βάση το περιβάλλον. Μαθαίνει να συμπληρώνει τα κενά.
Μοντελοποίηση μεταβαλλόμενης γλώσσας (PLM): Το μοντέλο προβλέπει το επόμενο διακριτικό με βάση μια τυχαία μετάθεση της ακολουθίας εισόδου. Μαθαίνει να χειρίζεται διαφορετικές παραγγελίες μάρκες.
Denoising Autoencoder (DAE): Το μοντέλο λαμβάνει μια μερικώς κατεστραμμένη είσοδο και στοχεύει να ανακτήσει την αρχική, μη παραμορφωμένη είσοδο. Μαθαίνει να χειρίζεται τον θόρυβο ή τα μέρη του κειμένου που λείπουν.
Replaced Token Detection (RTD): Το μοντέλο ανιχνεύει εάν ένα διακριτικό προέρχεται από το αρχικό κείμενο ή από μια δημιουργημένη έκδοση. Μαθαίνει να αναγνωρίζει αντικατασταθέντα ή χειραγωγημένα διακριτικά.
Πρόβλεψη επόμενης πρότασης (NSP): Το μοντέλο μαθαίνει να διακρίνει εάν δύο προτάσεις εισαγωγής είναι συνεχή τμήματα από τα δεδομένα εκπαίδευσης. Κατανοεί τη σχέση μεταξύ των προτάσεων.

Αυτές οι εργασίες βοηθούν το μοντέλο να μάθει τη δομή και το νόημα της γλώσσας. Με την προεκπαίδευση σε αυτές τις εργασίες, τα μοντέλα αποκτούν καλή κατανόηση της γλώσσας προτού βελτιστοποιηθούν για συγκεκριμένες εφαρμογές.

Κορυφαίοι 30+ μετασχηματιστές στο AI

Όνομα	Αρχιτεκτονική προκατάρτισης	Έργο	Εφαρμογή	Αναπτύχθηκε από
ALBERT	κωδικοποιητή	MLM/NSP	Το ίδιο με τον ΜΠΕΡΤ	Google
Αιγοκάμηλος	Αποκρυπτογράφος	LM	Εργασίες δημιουργίας και ταξινόμησης κειμένου	Stanford
AlphaFold	κωδικοποιητή	Πρόβλεψη αναδίπλωσης πρωτεΐνης	Αναδίπλωση πρωτεΐνης	βαθιά Νου
Anthropic Assistant (βλ. επίσης)	Αποκρυπτογράφος	LM	Από τον γενικό διάλογο έως τον βοηθό κώδικα.	Ανθρωπικός
BART	Κωδικοποιητής/Αποκωδικοποιητής	DAE	Εργασίες δημιουργίας κειμένου και κατανόησης κειμένου	Facebook
ΜΠΕΡΤ	κωδικοποιητή	MLM/NSP	Γλωσσική Κατανόηση και Απάντηση Ερωτήσεων	Google
BlenderBot 3	Αποκρυπτογράφος	LM	Εργασίες δημιουργίας κειμένου και κατανόησης κειμένου	Facebook
BLOOM	Αποκρυπτογράφος	LM	Εργασίες δημιουργίας κειμένου και κατανόησης κειμένου	Big Science/Huggingface
ChatGPT	Αποκρυπτογράφος	LM	Πράκτορες διαλόγου	OpenAI
Καλλίμαλο ζώο της Νότιας Αμερικής	Αποκρυπτογράφος	LM	Εργασίες δημιουργίας κειμένου και κατανόησης κειμένου	βαθιά Νου
CLIP	κωδικοποιητή		Ταξινόμηση εικόνας/αντικειμένου	OpenAI
CTRL	Αποκρυπτογράφος		Ελεγχόμενη δημιουργία κειμένου	Salesforce
DALL-E	Αποκρυπτογράφος	Πρόβλεψη λεζάντας	Κείμενο σε εικόνα	OpenAI
DALL-E-2	Κωδικοποιητής/Αποκωδικοποιητής	Πρόβλεψη λεζάντας	Κείμενο σε εικόνα	OpenAI
DeBERTA	Αποκρυπτογράφος	MLM	Το ίδιο με τον ΜΠΕΡΤ	Microsoft
Μετασχηματιστές απόφασης	Αποκρυπτογράφος	Πρόβλεψη επόμενης δράσης	Γενικά RL (εργασίες ενίσχυσης μάθησης)	Google/UC Berkeley/FAIR
DialoGPT	Αποκρυπτογράφος	LM	Δημιουργία κειμένου σε ρυθμίσεις διαλόγου	Microsoft
DistilBERT	κωδικοποιητή	MLM/NSP	Γλωσσική Κατανόηση και Απάντηση Ερωτήσεων	Αγκάλιασμα
DQ-BART	Κωδικοποιητής/Αποκωδικοποιητής	DAE	Δημιουργία και κατανόηση κειμένου	Amazon
Κουκλίτσα	Αποκρυπτογράφος	LM	Εργασίες δημιουργίας και ταξινόμησης κειμένου	Databricks, Inc
ΕΡΝΙ	κωδικοποιητή	MLM	Εργασίες που σχετίζονται με ένταση γνώσης	Διάφορα κινεζικά ιδρύματα
Φοινικόπτερος	Αποκρυπτογράφος	Πρόβλεψη λεζάντας	Κείμενο σε εικόνα	βαθιά Νου
Galactica	Αποκρυπτογράφος	LM	Επιστημονική ΔΠ, μαθηματικός συλλογισμός, σύνοψη, δημιουργία εγγράφων, πρόβλεψη μοριακών ιδιοτήτων και εξαγωγή οντοτήτων.	Meta
ΓΛΙΣΤΡΩ	κωδικοποιητή	Πρόβλεψη λεζάντας	Κείμενο σε εικόνα	OpenAI
GPT-3.5	Αποκρυπτογράφος	LM	Διάλογος και γενική γλώσσα	OpenAI
GPTΕντολή	Αποκρυπτογράφος	LM	Εργασίες διαλόγου ή γλωσσικών εργασιών έντασης γνώσης	OpenAI
HTML	Κωδικοποιητής/Αποκωδικοποιητής	DAE	Μοντέλο γλώσσας που επιτρέπει δομημένες προτροπές HTML	Facebook
Εικόνα	T5	Πρόβλεψη λεζάντας	Κείμενο σε εικόνα	Google
ΛΑΜΔΑ	Αποκρυπτογράφος	LM	Γενική μοντελοποίηση γλώσσας	Google
LLaMA	Αποκρυπτογράφος	LM	Κοινός συλλογισμός, Απάντηση σε ερωτήσεις, Δημιουργία κώδικα και κατανόηση ανάγνωσης.	Meta
Αθηνά	Αποκρυπτογράφος	LM	Μαθηματικός συλλογισμός	Google
Παλάμη	Αποκρυπτογράφος	LM	Γλωσσική κατανόηση και δημιουργία	Google
ΡοΜΠΕΡΤΑ	κωδικοποιητή	MLM	Γλωσσική Κατανόηση και Απάντηση Ερωτήσεων	UW/Google
Σπουργίτης	Αποκρυπτογράφος	LM	Πράκτορες διαλόγου και γενικές εφαρμογές δημιουργίας γλωσσών όπως Q&A	βαθιά Νου
StableDiffusion	Κωδικοποιητής/Αποκωδικοποιητής	Λεζάντα Πρόβλεψη	Κείμενο σε εικόνα	LMU Munich + Stability.ai + Eleuther.ai
Vicuna	Αποκρυπτογράφος	LM	Πράκτορες διαλόγου	UC Berkeley, CMU, Stanford, UC San Diego και MBZUAI

FAQs

Οι μετασχηματιστές στο AI είναι ένας τύπος αρχιτεκτονική βαθιάς μάθησης που έχει αλλάξει την επεξεργασία της φυσικής γλώσσας και άλλες εργασίες. Χρησιμοποιούν μηχανισμούς αυτοπροσοχής για να καταγράψουν τις σχέσεις μεταξύ των λέξεων σε μια πρόταση, δίνοντάς τους τη δυνατότητα να κατανοήσουν και να δημιουργήσουν κείμενο που μοιάζει με άνθρωπο.

Οι κωδικοποιητές και οι αποκωδικοποιητές είναι στοιχεία που χρησιμοποιούνται συνήθως σε μοντέλα αλληλουχίας σε ακολουθία. Οι κωδικοποιητές επεξεργάζονται δεδομένα εισόδου, όπως κείμενο ή εικόνες, και τα μετατρέπουν σε συμπιεσμένη αναπαράσταση, ενώ οι αποκωδικοποιητές δημιουργούν δεδομένα εξόδου με βάση την κωδικοποιημένη αναπαράσταση, επιτρέποντας εργασίες όπως μετάφραση γλώσσας ή υπότιτλους εικόνας.

Τα στρώματα προσοχής είναι συστατικά που χρησιμοποιούνται σε νευρωνικά δίκτυα, ιδιαίτερα στα μοντέλα Transformer. Επιτρέπουν στο μοντέλο να εστιάζει επιλεκτικά σε διαφορετικά μέρη της ακολουθίας εισόδου, εκχωρώντας βάρη σε κάθε στοιχείο με βάση τη συνάφειά του, επιτρέποντας την αποτελεσματική καταγραφή εξαρτήσεων και σχέσεων μεταξύ των στοιχείων.

Τα βελτιωμένα μοντέλα αναφέρονται σε προεκπαιδευμένα μοντέλα που έχουν εκπαιδευτεί περαιτέρω σε μια συγκεκριμένη εργασία ή σύνολο δεδομένων για τη βελτίωση της απόδοσής τους και την προσαρμογή τους στις συγκεκριμένες απαιτήσεις αυτής της εργασίας. Αυτή η διαδικασία λεπτομέρειας περιλαμβάνει την προσαρμογή των παραμέτρων του μοντέλου για να βελτιστοποιήσει τις προβλέψεις του και να το κάνει πιο εξειδικευμένο για την εργασία-στόχο.

Οι μετασχηματιστές θεωρούνται το μέλλον της τεχνητής νοημοσύνης επειδή έχουν επιδείξει εξαιρετική απόδοση σε ένα ευρύ φάσμα εργασιών, συμπεριλαμβανομένης της επεξεργασίας φυσικής γλώσσας, της δημιουργίας εικόνας και πολλά άλλα. Η ικανότητά τους να καταγράφουν εξαρτήσεις μεγάλης εμβέλειας και να επεξεργάζονται αποτελεσματικά διαδοχικά δεδομένα τα καθιστά εξαιρετικά προσαρμόσιμα και αποτελεσματικά για διάφορες εφαρμογές, ανοίγοντας το δρόμο για προόδους στη γενετική τεχνητή νοημοσύνη και φέρνοντας επανάσταση σε πολλές πτυχές της κοινωνίας.

Τα πιο διάσημα μοντέλα μετασχηματιστών στην τεχνητή νοημοσύνη περιλαμβάνουν το BERT (Αμφίδρομες αναπαραστάσεις κωδικοποιητή από τους μετασχηματιστές), GPT (Generative Pre-trained Transformer) και T5 (Text-to-Text Transformer Transformer). Αυτά τα μοντέλα έχουν επιτύχει αξιοσημείωτα αποτελέσματα σε διάφορες εργασίες επεξεργασίας φυσικής γλώσσας και έχουν κερδίσει σημαντική δημοτικότητα στην ερευνητική κοινότητα της τεχνητής νοημοσύνης.

Διαβάστε περισσότερα για το AI:

Ετικέτες:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.

Περισσότερα άρθρα

Νταμίρ Γιαλάλοφ

Hot Stories

Ανακαλύψτε Crypto Whales: Who's Who στην Αγορά

by Βανκτόρια palchik

07 Μαΐου 2024

Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Bitget Wallet παρουσιάζει το GetDrop Airdrop Η πλατφόρμα και λανσάρει την πρώτη εκδήλωση Meme Coin με έπαθλο 130,000 $

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Τελευταία νέα

Orbiter Finance Partners With Bitcoin Layer 2 Zulu Network and Deploys on Is Lwazi Testnet

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Crypto Exchange Bybit ενσωματώνει το USDe της Ethena Labs ως παράπλευρο περιουσιακό στοιχείο, επιτρέπει τα ζεύγη συναλλαγών BTC-USDe και ETH-USDe

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Bitget Wallet παρουσιάζει το GetDrop Airdrop Η πλατφόρμα και λανσάρει την πρώτη εκδήλωση Meme Coin με έπαθλο 130,000 $

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Το Meson Network επιτρέπει στους Crypto Miners να αποκτούν διακριτικά μέσω εξόρυξης. AirdropΈρχονται και προγράμματα επαναγοράς

by Άλισα Ντέιβιντσον

07 Μαΐου 2024

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα