XLM-V: Μια νέα μέθοδος πολυγλωσσικών μοντέλων μάσκας γλώσσας που προσπαθεί να αντιμετωπίσει το πρόβλημα του λεξιλογικού στενώματος
Εν συντομία
Το άρθρο θέτει το εξής πρόβλημα: γλωσσικά μοντέλα αυξάνουν τις παραμέτρους, μεγαλώνουν σε βάθος, αλλά το λεξιλόγιο εξακολουθεί να είναι το ίδιο σε μέγεθος.
Οι ερευνητές αρχίζουν να εκπαιδεύουν ένα νέο μοντέλο με 1 εκατομμύριο μάρκες από το λεξιλόγιο με απροσδόκητο τρόπο.
Οι ερευνητές ήταν αποφασισμένοι να δουν τι είδους βελτίωση θα μπορούσαν να κάνουν με μια τόσο σημαντική αύξηση στα διακριτικά.
Το θέμα που έθεσε η άρθρο Με τίτλο «XLM-V: Ξεπερνώντας το Λεξιλόγιο Bottleneck στα Πολυγλωσσικά Μοντέλα Μασκαρισμένης Γλώσσας» είναι ότι όταν οι παράμετροι και το βάθος των μοντέλων γλώσσας αυξάνονται, τα μεγέθη του λεξιλογίου τους παραμένουν αμετάβλητα. Για παράδειγμα, το μοντέλο mT5 έχει 13Β παραμέτρους αλλά ένα λεξιλόγιο 250K λέξεων που υποστηρίζει περισσότερες από 100 γλώσσες. Έτσι, κάθε γλώσσα έχει περίπου 2,500 μοναδικά διακριτικά, που είναι προφανώς πολύ μικρός αριθμός.
Τι ενέργειες κάνουν οι συγγραφείς; Ξεκινούν την εκπαίδευση ενός νέου μοντέλου με 1 εκατομμύριο μάρκες από το λεξιλόγιο με έναν απροσδόκητο τρόπο. Το XLM-R υπήρχε παλαιότερα, ωστόσο, με αυτήν την αναβάθμιση, θα γίνει XLM-V. Οι συγγραφείς ήταν αποφασισμένοι να δουν τι είδους βελτίωση θα μπορούσαν να κάνουν με μια τόσο σημαντική αύξηση στα διακριτικά.
Σχετικό άρθρο: Το κόστος εκπαίδευσης μοντέλων AI αναμένεται να αυξηθεί από 100 εκατομμύρια δολάρια σε 500 εκατομμύρια δολάρια έως το 2030 |
Τι γίνεται με το XLM-V είναι νέο που δεν το έκανε το XLM-R;
Η Βελτίωση Πολύγλωσσα μοντέλα με τη μέθοδο Language-Clustered Vocabularies χρησιμοποιείται για την κατασκευή διανυσμάτων λεξιλογικής αναπαράστασης για κάθε γλώσσα ως εξής: για κάθε γλώσσα στο σύνολο των γλωσσών, αποτελούν ένα δυαδικό διάνυσμα, κάθε στοιχείο του οποίου είναι μια συγκεκριμένη λέξη στη γλώσσα. Το ένα δείχνει ότι η λέξη περιλαμβάνεται στο λεξικό της γλώσσας (μπορείτε να δείτε μια εικόνα με γραφική περιγραφή στα συνημμένα.) Ωστόσο, δημιουργώντας ένα διάνυσμα χρησιμοποιώντας την αρνητική λογαριθμική πιθανότητα εμφάνισης κάθε λεξικού, οι συγγραφείς βελτιώνουν τον τρόπο με τον οποίο γίνονται οι αναφορές .
- Τα διανύσματα ομαδοποιούνται μετά από αυτό. Επιπλέον, ένα μοντέλο κομματιού εκπαιδεύεται σε κάθε συγκεκριμένο σύμπλεγμα για να σταματήσει τη μεταφορά λεξιλογίου μεταξύ λεξικά άσχετων γλωσσών.
- Το ALP αξιολογεί την ικανότητα ενός λεξικού να αντιπροσωπεύει μια συγκεκριμένη γλώσσα.
- Χρησιμοποιώντας τον αλγόριθμο για τη δημιουργία ULM λεξικά είναι το ακόλουθο βήμα. που ξεκινά με ένα μεγάλο αρχικό λεξικό και το περικόπτει σταδιακά έως ότου ο αριθμός των διακριτικών είναι κάτω από ένα συγκεκριμένο όριο για το μέγεθος του λεξικού.
Διαβάστε περισσότερα για το AI:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.