Η Meta AI παρουσιάζει το πανγλωσσικό ASR, προωθώντας την αυτόματη αναγνώριση ομιλίας σε περισσότερες από 1,600 γλώσσες
Εν συντομία
Η Meta AI λάνσαρε το σύστημα Omnilingual ASR, το οποίο παρέχει αναγνώριση ομιλίας για πάνω από 1,600 γλώσσες και κυκλοφόρησε μοντέλα ανοιχτού κώδικα και ένα corpus για 350 υποεξυπηρετούμενες γλώσσες.
Το τμήμα έρευνας της τεχνολογικής εταιρείας Meta, που ειδικεύεται στην Τεχνητή Νοημοσύνη και την επαυξημένη πραγματικότητα, Meta AI ανακοίνωσε την κυκλοφορία του συστήματος Meta Omnilingual Automatic Speech Recognition (ASR).
Αυτή η σουίτα μοντέλων παρέχει αυτόματη αναγνώριση ομιλίας για πάνω από 1,600 γλώσσες, επιτυγχάνοντας απόδοση υψηλής ποιότητας σε πρωτοφανή κλίμακα. Επιπλέον, το Meta AI είναι ανοιχτού κώδικα Omnilingual wav2vec 2.0, ένα αυτοεπιβλεπόμενο, μαζικά πολύγλωσσο μοντέλο αναπαράστασης ομιλίας με 7 δισεκατομμύρια παραμέτρους, σχεδιασμένο να υποστηρίζει μια ποικιλία εργασιών ομιλίας κατάντη.
Παράλληλα με αυτά τα εργαλεία, ο οργανισμός κυκλοφορεί επίσης το Omnilingual ASR Corpus, μια επιμελημένη συλλογή μεταγραμμένου λόγου από 350 υποεξυπηρετούμενες γλώσσες, η οποία αναπτύχθηκε σε συνεργασία με παγκόσμιους συνεργάτες.
Η αυτόματη αναγνώριση ομιλίας έχει εξελιχθεί τα τελευταία χρόνια, επιτυγχάνοντας σχεδόν τέλεια ακρίβεια για πολλές ευρέως ομιλούμενες γλώσσες. Η επέκταση της κάλυψης σε γλώσσες με λιγότερους πόρους, ωστόσο, παραμένει δύσκολη λόγω των υψηλών απαιτήσεων δεδομένων και υπολογισμών των υπαρχουσών αρχιτεκτονικών τεχνητής νοημοσύνης. Το σύστημα Omnilingual ASR αντιμετωπίζει αυτόν τον περιορισμό κλιμακώνοντας τον κωδικοποιητή ομιλίας wav2vec 2.0 σε 7 δισεκατομμύρια παραμέτρους, δημιουργώντας πλούσιες πολύγλωσσες αναπαραστάσεις από ακατέργαστη, μη μεταγραμμένη ομιλία. Δύο παραλλαγές αποκωδικοποιητή αντιστοιχίζουν αυτές τις αναπαραστάσεις σε διακριτικά χαρακτήρων: η μία χρησιμοποιεί χρονική ταξινόμηση σύνδεσης (CTC) και η άλλη χρησιμοποιεί μια προσέγγιση βασισμένη σε μετασχηματιστή παρόμοια με εκείνες στα μεγάλα γλωσσικά μοντέλα.
Αυτή η εμπνευσμένη από το LLM προσέγγιση ASR επιτυγχάνει απόδοση αιχμής σε περισσότερες από 1,600 γλώσσες, με ποσοστά σφαλμάτων χαρακτήρων κάτω του 10 για το 78% αυτών, και εισάγει μια πιο ευέλικτη μέθοδο για την προσθήκη νέων γλωσσών.
Σε αντίθεση με τα παραδοσιακά συστήματα που απαιτούν εξειδικευμένη βελτίωση, το Omnilingual ASR μπορεί να ενσωματώσει μια προηγουμένως μη υποστηριζόμενη γλώσσα χρησιμοποιώντας μόνο λίγα ζευγαρωμένα παραδείγματα ήχου-κειμένου, επιτρέποντας τη μεταγραφή χωρίς εκτεταμένα δεδομένα, εξειδικευμένη εμπειρογνωμοσύνη ή υπολογιστική ισχύ υψηλής τεχνολογίας. Ενώ τα αποτελέσματα μηδενικής επίδοσης δεν ταιριάζουν ακόμη με πλήρως εκπαιδευμένα συστήματα, αυτή η μέθοδος παρέχει έναν κλιμακωτό τρόπο για να εντάξετε τις υποεξυπηρετούμενες γλώσσες στο ψηφιακό οικοσύστημα.
Meta AI για την προώθηση της αναγνώρισης ομιλίας με πανγλωσσική σουίτα ASR και σώμα κειμένων
Το τμήμα έρευνας έχει κυκλοφορήσει μια ολοκληρωμένη σουίτα μοντέλων και ένα σύνολο δεδομένων που έχουν σχεδιαστεί για την προώθηση της τεχνολογίας ομιλίας για οποιαδήποτε γλώσσα. Βασιζόμενο στην προηγούμενη έρευνα του FAIR, το Omnilingual ASR περιλαμβάνει δύο παραλλαγές αποκωδικοποιητή, που κυμαίνονται από ελαφριά μοντέλα 300M για συσκευές χαμηλής κατανάλωσης έως μοντέλα 7B που προσφέρουν υψηλή ακρίβεια σε ποικίλες εφαρμογές. Το μοντέλο θεμελίωσης ομιλίας γενικής χρήσης wav2vec 2.0 είναι επίσης διαθέσιμο σε πολλά μεγέθη, επιτρέποντας ένα ευρύ φάσμα εργασιών που σχετίζονται με την ομιλία πέρα από το ASR. Όλα τα μοντέλα παρέχονται με άδεια Apache 2.0 και το σύνολο δεδομένων είναι διαθέσιμο υπό CC-BY, επιτρέποντας σε ερευνητές, προγραμματιστές και υποστηρικτές γλωσσών να προσαρμόζουν και να επεκτείνουν λύσεις ομιλίας χρησιμοποιώντας το πλαίσιο fairseq2 ανοιχτού κώδικα του FAIR στο οικοσύστημα PyTorch.
Το Omnilingual ASR εκπαιδεύεται σε ένα από τα μεγαλύτερα και πιο γλωσσικά ποικίλα σώματα ASR που έχουν δημιουργηθεί ποτέ, συνδυάζοντας δημόσια διαθέσιμα σύνολα δεδομένων με ηχογραφήσεις που προέρχονται από την κοινότητα. Για την υποστήριξη γλωσσών με περιορισμένη ψηφιακή παρουσία, Meta AI συνεργάστηκε με τοπικούς οργανισμούς για την πρόσληψη και την αποζημίωση φυσικών ομιλητών σε απομακρυσμένες ή ελλιπώς καταγεγραμμένες περιοχές, δημιουργώντας το Omnilingual ASR Corpus, το μεγαλύτερο αυθόρμητο σύνολο δεδομένων ASR με εξαιρετικά χαμηλούς πόρους μέχρι σήμερα. Πρόσθετες συνεργασίες μέσω του Προγράμματος Συνεργατών Γλωσσικής Τεχνολογίας έφεραν σε επαφή γλωσσολόγους, ερευνητές και γλωσσικές κοινότητες παγκοσμίως, συμπεριλαμβανομένων συνεργασιών με το Common Voice του Ιδρύματος Mozilla και την Lanfrica/NaijaVoices. Αυτές οι προσπάθειες παρείχαν βαθιά γλωσσική γνώση και πολιτιστικό πλαίσιο, διασφαλίζοντας ότι η τεχνολογία ανταποκρίνεται στις τοπικές ανάγκες, ενώ παράλληλα ενδυναμώνει τις ποικίλες γλωσσικές κοινότητες παγκοσμίως.
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.
Περισσότερα άρθρα
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.