Αναφορά ειδήσεων Τεχνολογία
Νοέμβριος 11, 2025

Η Meta AI παρουσιάζει το πανγλωσσικό ASR, προωθώντας την αυτόματη αναγνώριση ομιλίας σε περισσότερες από 1,600 γλώσσες

Εν συντομία

Η Meta AI λάνσαρε το σύστημα Omnilingual ASR, το οποίο παρέχει αναγνώριση ομιλίας για πάνω από 1,600 γλώσσες και κυκλοφόρησε μοντέλα ανοιχτού κώδικα και ένα corpus για 350 υποεξυπηρετούμενες γλώσσες.

Η Meta AI παρουσιάζει το πανγλωσσικό ASR, προωθώντας την αυτόματη αναγνώριση ομιλίας σε περισσότερες από 1,600 γλώσσες

Το τμήμα έρευνας της τεχνολογικής εταιρείας Meta, που ειδικεύεται στην Τεχνητή Νοημοσύνη και την επαυξημένη πραγματικότητα, Meta AI ανακοίνωσε την κυκλοφορία του συστήματος Meta Omnilingual Automatic Speech Recognition (ASR). 

Αυτή η σουίτα μοντέλων παρέχει αυτόματη αναγνώριση ομιλίας για πάνω από 1,600 γλώσσες, επιτυγχάνοντας απόδοση υψηλής ποιότητας σε πρωτοφανή κλίμακα. Επιπλέον, το Meta AI είναι ανοιχτού κώδικα Omnilingual wav2vec 2.0, ένα αυτοεπιβλεπόμενο, μαζικά πολύγλωσσο μοντέλο αναπαράστασης ομιλίας με 7 δισεκατομμύρια παραμέτρους, σχεδιασμένο να υποστηρίζει μια ποικιλία εργασιών ομιλίας κατάντη.

Παράλληλα με αυτά τα εργαλεία, ο οργανισμός κυκλοφορεί επίσης το Omnilingual ASR Corpus, μια επιμελημένη συλλογή μεταγραμμένου λόγου από 350 υποεξυπηρετούμενες γλώσσες, η οποία αναπτύχθηκε σε συνεργασία με παγκόσμιους συνεργάτες.

Η αυτόματη αναγνώριση ομιλίας έχει εξελιχθεί τα τελευταία χρόνια, επιτυγχάνοντας σχεδόν τέλεια ακρίβεια για πολλές ευρέως ομιλούμενες γλώσσες. Η επέκταση της κάλυψης σε γλώσσες με λιγότερους πόρους, ωστόσο, παραμένει δύσκολη λόγω των υψηλών απαιτήσεων δεδομένων και υπολογισμών των υπαρχουσών αρχιτεκτονικών τεχνητής νοημοσύνης. Το σύστημα Omnilingual ASR αντιμετωπίζει αυτόν τον περιορισμό κλιμακώνοντας τον κωδικοποιητή ομιλίας wav2vec 2.0 σε 7 δισεκατομμύρια παραμέτρους, δημιουργώντας πλούσιες πολύγλωσσες αναπαραστάσεις από ακατέργαστη, μη μεταγραμμένη ομιλία. Δύο παραλλαγές αποκωδικοποιητή αντιστοιχίζουν αυτές τις αναπαραστάσεις σε διακριτικά χαρακτήρων: η μία χρησιμοποιεί χρονική ταξινόμηση σύνδεσης (CTC) και η άλλη χρησιμοποιεί μια προσέγγιση βασισμένη σε μετασχηματιστή παρόμοια με εκείνες στα μεγάλα γλωσσικά μοντέλα.

Αυτή η εμπνευσμένη από το LLM προσέγγιση ASR επιτυγχάνει απόδοση αιχμής σε περισσότερες από 1,600 γλώσσες, με ποσοστά σφαλμάτων χαρακτήρων κάτω του 10 για το 78% αυτών, και εισάγει μια πιο ευέλικτη μέθοδο για την προσθήκη νέων γλωσσών. 

Σε αντίθεση με τα παραδοσιακά συστήματα που απαιτούν εξειδικευμένη βελτίωση, το Omnilingual ASR μπορεί να ενσωματώσει μια προηγουμένως μη υποστηριζόμενη γλώσσα χρησιμοποιώντας μόνο λίγα ζευγαρωμένα παραδείγματα ήχου-κειμένου, επιτρέποντας τη μεταγραφή χωρίς εκτεταμένα δεδομένα, εξειδικευμένη εμπειρογνωμοσύνη ή υπολογιστική ισχύ υψηλής τεχνολογίας. Ενώ τα αποτελέσματα μηδενικής επίδοσης δεν ταιριάζουν ακόμη με πλήρως εκπαιδευμένα συστήματα, αυτή η μέθοδος παρέχει έναν κλιμακωτό τρόπο για να εντάξετε τις υποεξυπηρετούμενες γλώσσες στο ψηφιακό οικοσύστημα.

Meta AI για την προώθηση της αναγνώρισης ομιλίας με πανγλωσσική σουίτα ASR και σώμα κειμένων 

Το τμήμα έρευνας έχει κυκλοφορήσει μια ολοκληρωμένη σουίτα μοντέλων και ένα σύνολο δεδομένων που έχουν σχεδιαστεί για την προώθηση της τεχνολογίας ομιλίας για οποιαδήποτε γλώσσα. Βασιζόμενο στην προηγούμενη έρευνα του FAIR, το Omnilingual ASR περιλαμβάνει δύο παραλλαγές αποκωδικοποιητή, που κυμαίνονται από ελαφριά μοντέλα 300M για συσκευές χαμηλής κατανάλωσης έως μοντέλα 7B που προσφέρουν υψηλή ακρίβεια σε ποικίλες εφαρμογές. Το μοντέλο θεμελίωσης ομιλίας γενικής χρήσης wav2vec 2.0 είναι επίσης διαθέσιμο σε πολλά μεγέθη, επιτρέποντας ένα ευρύ φάσμα εργασιών που σχετίζονται με την ομιλία πέρα ​​από το ASR. Όλα τα μοντέλα παρέχονται με άδεια Apache 2.0 και το σύνολο δεδομένων είναι διαθέσιμο υπό CC-BY, επιτρέποντας σε ερευνητές, προγραμματιστές και υποστηρικτές γλωσσών να προσαρμόζουν και να επεκτείνουν λύσεις ομιλίας χρησιμοποιώντας το πλαίσιο fairseq2 ανοιχτού κώδικα του FAIR στο οικοσύστημα PyTorch.

Το Omnilingual ASR εκπαιδεύεται σε ένα από τα μεγαλύτερα και πιο γλωσσικά ποικίλα σώματα ASR που έχουν δημιουργηθεί ποτέ, συνδυάζοντας δημόσια διαθέσιμα σύνολα δεδομένων με ηχογραφήσεις που προέρχονται από την κοινότητα. Για την υποστήριξη γλωσσών με περιορισμένη ψηφιακή παρουσία, Meta AI συνεργάστηκε με τοπικούς οργανισμούς για την πρόσληψη και την αποζημίωση φυσικών ομιλητών σε απομακρυσμένες ή ελλιπώς καταγεγραμμένες περιοχές, δημιουργώντας το Omnilingual ASR Corpus, το μεγαλύτερο αυθόρμητο σύνολο δεδομένων ASR με εξαιρετικά χαμηλούς πόρους μέχρι σήμερα. Πρόσθετες συνεργασίες μέσω του Προγράμματος Συνεργατών Γλωσσικής Τεχνολογίας έφεραν σε επαφή γλωσσολόγους, ερευνητές και γλωσσικές κοινότητες παγκοσμίως, συμπεριλαμβανομένων συνεργασιών με το Common Voice του Ιδρύματος Mozilla και την Lanfrica/NaijaVoices. Αυτές οι προσπάθειες παρείχαν βαθιά γλωσσική γνώση και πολιτιστικό πλαίσιο, διασφαλίζοντας ότι η τεχνολογία ανταποκρίνεται στις τοπικές ανάγκες, ενώ παράλληλα ενδυναμώνει τις ποικίλες γλωσσικές κοινότητες παγκοσμίως.

Αποποίηση Eυθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.

Περισσότερα άρθρα
Άλισα Ντέιβιντσον
Άλισα Ντέιβιντσον

Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται στα κρυπτονομίσματα, τις αποδείξεις μηδενικής γνώσης, τις επενδύσεις και την εκτεταμένη σφαίρα Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η ηρεμία πριν από την καταιγίδα Solana: Τι λένε τώρα τα διαγράμματα, οι φάλαινες και τα σήματα On-Chain

Η Solana έχει επιδείξει ισχυρή απόδοση, χάρη στην αυξανόμενη υιοθέτηση, το θεσμικό ενδιαφέρον και τις βασικές συνεργασίες, ενώ παράλληλα αντιμετωπίζει πιθανές...

Μάθετε περισσότερα

Κρυπτονομίσματα τον Απρίλιο του 2025: Βασικές τάσεις, μεταβολές και τι ακολουθεί

Τον Απρίλιο του 2025, ο χώρος των κρυπτονομισμάτων επικεντρώθηκε στην ενίσχυση της βασικής υποδομής, με το Ethereum να προετοιμάζεται για το Pectra...

Μάθετε περισσότερα
Περισσότερα
Διαβάστε περισσότερα
Η Bakkt αποκτά την έρευνα κατανεμημένων τεχνολογιών, επιταχύνοντας την επέκταση του Stablecoin και των ψηφιακών περιουσιακών στοιχείων
Επιχειρματικότητα Αναφορά ειδήσεων Τεχνολογία
Η Bakkt αποκτά την έρευνα κατανεμημένων τεχνολογιών, επιταχύνοντας την επέκταση του Stablecoin και των ψηφιακών περιουσιακών στοιχείων
Ιανουάριος 12, 2026
Κρυπτονομίσματα στα μέσα Ιανουαρίου: Αστάθεια, δισταγμός και ακόμα αποφάσεις
αγορές Αναφορά ειδήσεων
Κρυπτονομίσματα στα μέσα Ιανουαρίου: Αστάθεια, δισταγμός και ακόμα αποφάσεις
Ιανουάριος 12, 2026
CoinShares: Τα ETF κρυπτονομισμάτων των ΗΠΑ βλέπουν εκροές ενώ τα XRP, Solana και Sui προσελκύουν κεφάλαια
αγορές Αναφορά ειδήσεων Τεχνολογία
CoinShares: Τα ETF κρυπτονομισμάτων των ΗΠΑ βλέπουν εκροές ενώ τα XRP, Solana και Sui προσελκύουν κεφάλαια
Ιανουάριος 12, 2026
Κορυφαίες εκδηλώσεις κρυπτονομισμάτων και ψηφιακών περιουσιακών στοιχείων για να παρακολουθήσετε στο Χονγκ Κονγκ αυτόν τον Φεβρουάριο
Hack Seasons Επιχειρματικότητα Lifestyle Αναφορά ειδήσεων Τεχνολογία
Κορυφαίες εκδηλώσεις κρυπτονομισμάτων και ψηφιακών περιουσιακών στοιχείων για να παρακολουθήσετε στο Χονγκ Κονγκ αυτόν τον Φεβρουάριο
Ιανουάριος 12, 2026
CRYPTOMERIA LABS PTE. Ε.Π.Ε.