Αναφορά ειδήσεων Τεχνολογία
Φεβρουάριος 06, 2023

XLM-V: Μια νέα μέθοδος πολυγλωσσικών μοντέλων μάσκας γλώσσας που προσπαθεί να αντιμετωπίσει το πρόβλημα του λεξιλογικού στενώματος

Εν συντομία

Το άρθρο θέτει το εξής πρόβλημα: γλωσσικά μοντέλα αυξάνουν τις παραμέτρους, μεγαλώνουν σε βάθος, αλλά το λεξιλόγιο εξακολουθεί να είναι το ίδιο σε μέγεθος.

Οι ερευνητές αρχίζουν να εκπαιδεύουν ένα νέο μοντέλο με 1 εκατομμύριο μάρκες από το λεξιλόγιο με απροσδόκητο τρόπο.

Οι ερευνητές ήταν αποφασισμένοι να δουν τι είδους βελτίωση θα μπορούσαν να κάνουν με μια τόσο σημαντική αύξηση στα διακριτικά.

Το θέμα που έθεσε η άρθρο Με τίτλο «XLM-V: Ξεπερνώντας το Λεξιλόγιο Bottleneck στα Πολυγλωσσικά Μοντέλα Μασκαρισμένης Γλώσσας» είναι ότι όταν οι παράμετροι και το βάθος των μοντέλων γλώσσας αυξάνονται, τα μεγέθη του λεξιλογίου τους παραμένουν αμετάβλητα. Για παράδειγμα, το μοντέλο mT5 έχει 13Β παραμέτρους αλλά ένα λεξιλόγιο 250K λέξεων που υποστηρίζει περισσότερες από 100 γλώσσες. Έτσι, κάθε γλώσσα έχει περίπου 2,500 μοναδικά διακριτικά, που είναι προφανώς πολύ μικρός αριθμός.

XLM-V: Μια νέα μέθοδος πολυγλωσσικών μοντέλων μάσκας γλώσσας που επιχειρεί να αντιμετωπίσει το πρόβλημα της συμφόρησης του λεξιλογίου
@ Midjourney / Σαλβ

Τι ενέργειες κάνουν οι συγγραφείς; Ξεκινούν την εκπαίδευση ενός νέου μοντέλου με 1 εκατομμύριο μάρκες από το λεξιλόγιο με έναν απροσδόκητο τρόπο. Το XLM-R υπήρχε παλαιότερα, ωστόσο, με αυτήν την αναβάθμιση, θα γίνει XLM-V. Οι συγγραφείς ήταν αποφασισμένοι να δουν τι είδους βελτίωση θα μπορούσαν να κάνουν με μια τόσο σημαντική αύξηση στα διακριτικά.

Σχετικό άρθρο: Το κόστος εκπαίδευσης μοντέλων AI αναμένεται να αυξηθεί από 100 εκατομμύρια δολάρια σε 500 εκατομμύρια δολάρια έως το 2030

Τι γίνεται με το XLM-V είναι νέο που δεν το έκανε το XLM-R;

Τι γίνεται με το XLM-V είναι νέο που δεν το έκανε το XLM-R;

Η Βελτίωση Πολύγλωσσα μοντέλα με τη μέθοδο Language-Clustered Vocabularies χρησιμοποιείται για την κατασκευή διανυσμάτων λεξιλογικής αναπαράστασης για κάθε γλώσσα ως εξής: για κάθε γλώσσα στο σύνολο των γλωσσών, αποτελούν ένα δυαδικό διάνυσμα, κάθε στοιχείο του οποίου είναι μια συγκεκριμένη λέξη στη γλώσσα. Το ένα δείχνει ότι η λέξη περιλαμβάνεται στο λεξικό της γλώσσας (μπορείτε να δείτε μια εικόνα με γραφική περιγραφή στα συνημμένα.) Ωστόσο, δημιουργώντας ένα διάνυσμα χρησιμοποιώντας την αρνητική λογαριθμική πιθανότητα εμφάνισης κάθε λεξικού, οι συγγραφείς βελτιώνουν τον τρόπο με τον οποίο γίνονται οι αναφορές .

  1. Τα διανύσματα ομαδοποιούνται μετά από αυτό. Επιπλέον, ένα μοντέλο κομματιού εκπαιδεύεται σε κάθε συγκεκριμένο σύμπλεγμα για να σταματήσει τη μεταφορά λεξιλογίου μεταξύ λεξικά άσχετων γλωσσών.
  2. Το ALP αξιολογεί την ικανότητα ενός λεξικού να αντιπροσωπεύει μια συγκεκριμένη γλώσσα.
  3. Χρησιμοποιώντας τον αλγόριθμο για τη δημιουργία ULM λεξικά είναι το ακόλουθο βήμα. που ξεκινά με ένα μεγάλο αρχικό λεξικό και το περικόπτει σταδιακά έως ότου ο αριθμός των διακριτικών είναι κάτω από ένα συγκεκριμένο όριο για το μέγεθος του λεξικού.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
Business Αναφορά ειδήσεων Τεχνολογία
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
3 Μαΐου 2024
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
3 Μαΐου 2024
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
3 Μαΐου 2024
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
Business Αναφορά ειδήσεων Τεχνολογία
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
3 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.