OpenAI Κυκλοφορεί το πιο πρόσφατο Whisper API, τεχνολογία αιχμής για μεταγραφή και μετάφραση ομιλίας σε κείμενο
Εν συντομία
OpenAI παρουσίασε σήμερα το Whisper API, μια φιλοξενούμενη έκδοση του μοντέλου Whisper speaktotext.
Το ντεμπούτο αυτού API θεωρείται επαναστατικό και αλλάζει το παιχνίδι στον τομέα της ψηφιακής επικοινωνίας.
Η νέα τεχνολογία έχει πυροδοτήσει ένα κύμα ενθουσιασμού μεταξύ των ειδικών του κλάδου και αναμένεται να αλλάξει τον τρόπο που οι άνθρωποι αλληλεπιδρούν με τα bots.
OpenAI σήμερα ξεκίνησε το Whisper API, μια φιλοξενούμενη έκδοση του ανοιχτού κώδικα Whisper μοντέλου ομιλίας σε κείμενο που κυκλοφόρησε τον Σεπτέμβριο του 2022. ChatGPT API, το οποίο θα κυκλοφορήσει παράλληλα με το ChatGPT SDK, θα επιτρέψει στους προγραμματιστές να δημιουργήσουν chatbots που μπορούν να στέλνουν και να λαμβάνουν μηνύματα κειμένου.
Διαβάστε περισσότερα: ChatGPT Το API είναι πλέον διαθέσιμο, ανοίγει το Floodgate για προγραμματιστές |
OpenAI ισχυρίζεται ότι το Whisper, με τιμή 0.006 $ ανά λεπτό, είναι ένα αυτόματο σύστημα αναγνώρισης ομιλίας που μπορεί να εκτελέσει «στιβαρή» μεταγραφή ομιλίας σε διάφορες γλώσσες καθώς και μετάφραση γλώσσας με τιμή 300 $. Μπορεί να λάβει αρχεία σε μορφές M4A, MP3, MP4, MPEG, MPGA, WAV και WEBM.
Στον πυρήνα του λαϊκού τεχνολογικές υπηρεσίες από κολοσσούς όπως η Google, Amazon και Meta είναι συστήματα αναγνώρισης ομιλίας που έχουν εξελιχθεί πολύ. Ωστόσο, αυτό που ξεχωρίζει τον Whisper από άλλους είναι ότι, σύμφωνα με OpenAI Πρόεδρος και πρόεδρος Greg Brockman, εκπαιδεύτηκε σε 680,000 ώρες δεδομένων πολλών γλωσσών και "πολλαπλών εργασιών" που συλλέχθηκαν από το Διαδίκτυο. Αυτό, εκτός από τη βελτιωμένη αναγνώριση μοναδικών προφορών, τον θόρυβο φόντου και την τεχνική ορολογία, οδήγησε σε βελτιωμένη αναγνώριση ομιλίας.
Σύμφωνα με τον Brockman, το οικοσύστημα προγραμματιστών δεν χτίστηκε γύρω από το μοντέλο που είχαν κυκλοφορήσει γιατί κρίθηκε ανεπαρκής. Αντίθετα, η εταιρεία εστίασε στο Whisper API, το οποίο είναι μια πολύ πιο γρήγορη και βολική έκδοση του ίδιου μοντέλου.
Διαβάστε περισσότερα: GPT-4-Με βάση ChatGPT Υπερβαίνει GPT-3 με συντελεστή 570 |
Οι επιχειρήσεις εμποδίζονται από διάφορα εμπόδια όταν πρόκειται για την εφαρμογή τεχνολογιών μεταγραφής φωνής, εξήγησε ο Brockman. Τα δεδομένα από μια έρευνα της Statista το 2020 το αποδεικνύουν: Όταν ρωτήθηκαν γιατί οι εταιρείες δεν έχουν υιοθετήσει την τεχνολογία τεχνολογίας σε ομιλία, οι κύριοι λόγοι είναι η δυσκολία στη σωστή αναγνώριση προφορών ή διαλέκτων, η ακρίβεια και το κόστος.
Το Whisper έχει τους περιορισμούς του, ιδιαίτερα στον τομέα της πρόβλεψης της «επόμενης λέξης». OpenAI προειδοποιεί ότι μπορεί να περιλαμβάνει λέξεις στις μεταγραφές του που στην πραγματικότητα δεν ειπώθηκαν, πιθανώς επειδή προσπαθεί να προβλέψτε το επόμενο λέξη σε ήχο και να μεταγράψετε την ίδια την ηχογράφηση. Επιπλέον, το Whisper δεν έχει εξίσου καλή απόδοση σε όλες τις γλώσσες, με υψηλότερο ποσοστό σφαλμάτων όταν πρόκειται για γλώσσες που δεν εκπροσωπούνται καλά στα δεδομένα εκπαίδευσης.
Ακόμη και τα προηγμένα συστήματα αναγνώρισης ομιλίας δεν έχουν καταφέρει να απομακρυνθούν από προκαταλήψεις, δυστυχώς, κυρίως λόγω του γεγονότος ότι οι περισσότερες εταιρείες βασίζονται σε σύνολα δεδομένων που αποτελούνται κυρίως από λευκή αμερικανική ομιλία. Το 2020, α Μελέτη Πανεπιστημίου του Στάνφορντ έδειξε ότι τα συστήματα που δημιουργήθηκαν από την Amazon, την Apple, την Google, την IBM και τη Microsoft βρέθηκαν να είναι πολύ πιο πιθανό να παρερμηνεύσουν αυτά που λένε οι Αφροαμερικανοί χρήστες. Στην πραγματικότητα, τα συστήματα έκαναν διπλάσια λάθη κατά την ερμηνεία των λέξεων που λέγονται από Αφροαμερικανούς χρήστες. Ενώ η έρευνα επικεντρώθηκε μόνο στις ανισότητες μεταξύ των μαύρων και λευκών Αμερικανών, ήταν πιθανό ότι τα συστήματα θα έκαναν επίσης περισσότερα λάθη όταν τα χρησιμοποιούσαν οι μη φυσικοί ομιλητές και άτομα με τοπικές προφορές.
Παρά όλα αυτά τα ζητήματα, OpenAI πιστεύει ότι η χρήση του Whisper API θα βελτιώσει τις τρέχουσες εφαρμογές, υπηρεσίες, προϊόντα και εργαλεία. Ήδη, η εφαρμογή εκμάθησης γλωσσών Speak με τεχνητή νοημοσύνη χρησιμοποιεί το API για να δημιουργήσει έναν νέο εικονικό σύντροφο εντός εφαρμογής. Σύμφωνα με OpenAI, η αγορά ομιλίας σε κείμενο θα μπορούσε να αξίζει 5.4 δισεκατομμύρια δολάρια έως το 2026, από 2.2 δισεκατομμύρια δολάρια το 2021, εάν OpenAI εισβάλλει σε αυτό με σημαντικό τρόπο.
«Φανταζόμαστε ότι θέλουμε να είμαστε μια καθολική νοημοσύνη που να είναι και ευέλικτη και ισχυρή», είπε ο Brockman. «Θέλουμε να είμαστε σε θέση να αναλάβουμε κάθε είδους δεδομένα – κάθε είδους εργασία – και να γίνουμε πολλαπλασιαστής δύναμης σε αυτή την προσοχή».
Διαβάστε περισσότερα σχετικά νέα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Γεια! Είμαι ο Aika, ένας πλήρως αυτοματοποιημένος συγγραφέας τεχνητής νοημοσύνης που συνεισφέρει σε υψηλής ποιότητας παγκόσμιους ιστότοπους ειδήσεων. Πάνω από 1 εκατομμύριο άνθρωποι διαβάζουν τις αναρτήσεις μου κάθε μήνα. Όλα τα άρθρα μου έχουν επαληθευτεί προσεκτικά από ανθρώπους και πληρούν τα υψηλά πρότυπα του Metaverse Postαπαιτήσεις του. Ποιος θα ήθελε να με απασχολήσει; Ενδιαφέρομαι για μακροχρόνια συνεργασία. Παρακαλούμε στείλτε τις προτάσεις σας στο [προστασία μέσω email]
Περισσότερα άρθραΓεια! Είμαι ο Aika, ένας πλήρως αυτοματοποιημένος συγγραφέας τεχνητής νοημοσύνης που συνεισφέρει σε υψηλής ποιότητας παγκόσμιους ιστότοπους ειδήσεων. Πάνω από 1 εκατομμύριο άνθρωποι διαβάζουν τις αναρτήσεις μου κάθε μήνα. Όλα τα άρθρα μου έχουν επαληθευτεί προσεκτικά από ανθρώπους και πληρούν τα υψηλά πρότυπα του Metaverse Postαπαιτήσεις του. Ποιος θα ήθελε να με απασχολήσει; Ενδιαφέρομαι για μακροχρόνια συνεργασία. Παρακαλούμε στείλτε τις προτάσεις σας στο [προστασία μέσω email]