Περιεχόμενο που δημιουργείται από AI
Μαρτίου 08, 2023

OpenAI Κυκλοφορεί το πιο πρόσφατο Whisper API, τεχνολογία αιχμής για μεταγραφή και μετάφραση ομιλίας σε κείμενο

Εν συντομία

OpenAI παρουσίασε σήμερα το Whisper API, μια φιλοξενούμενη έκδοση του μοντέλου Whisper speaktotext.

Το ντεμπούτο αυτού API θεωρείται επαναστατικό και αλλάζει το παιχνίδι στον τομέα της ψηφιακής επικοινωνίας.

Η νέα τεχνολογία έχει πυροδοτήσει ένα κύμα ενθουσιασμού μεταξύ των ειδικών του κλάδου και αναμένεται να αλλάξει τον τρόπο που οι άνθρωποι αλληλεπιδρούν με τα bots.

OpenAI σήμερα ξεκίνησε το Whisper API, μια φιλοξενούμενη έκδοση του ανοιχτού κώδικα Whisper μοντέλου ομιλίας σε κείμενο που κυκλοφόρησε τον Σεπτέμβριο του 2022. ChatGPT API, το οποίο θα κυκλοφορήσει παράλληλα με το ChatGPT SDK, θα επιτρέψει στους προγραμματιστές να δημιουργήσουν chatbots που μπορούν να στέλνουν και να λαμβάνουν μηνύματα κειμένου.

OpenAI κυκλοφόρησε το πιο πρόσφατο Whisper API, το οποίο είναι μια τεχνολογία αιχμής για μεταγραφή και μετάφραση ομιλίας σε κείμενο
Διαβάστε περισσότερα: ChatGPT Το API είναι πλέον διαθέσιμο, ανοίγει το Floodgate για προγραμματιστές

OpenAI ισχυρίζεται ότι το Whisper, με τιμή 0.006 $ ανά λεπτό, είναι ένα αυτόματο σύστημα αναγνώρισης ομιλίας που μπορεί να εκτελέσει «στιβαρή» μεταγραφή ομιλίας σε διάφορες γλώσσες καθώς και μετάφραση γλώσσας με τιμή 300 $. Μπορεί να λάβει αρχεία σε μορφές M4A, MP3, MP4, MPEG, MPGA, WAV και WEBM.

Στον πυρήνα του λαϊκού τεχνολογικές υπηρεσίες από κολοσσούς όπως η Google, Amazon και Meta είναι συστήματα αναγνώρισης ομιλίας που έχουν εξελιχθεί πολύ. Ωστόσο, αυτό που ξεχωρίζει τον Whisper από άλλους είναι ότι, σύμφωνα με OpenAI Πρόεδρος και πρόεδρος Greg Brockman, εκπαιδεύτηκε σε 680,000 ώρες δεδομένων πολλών γλωσσών και "πολλαπλών εργασιών" που συλλέχθηκαν από το Διαδίκτυο. Αυτό, εκτός από τη βελτιωμένη αναγνώριση μοναδικών προφορών, τον θόρυβο φόντου και την τεχνική ορολογία, οδήγησε σε βελτιωμένη αναγνώριση ομιλίας.

Σύμφωνα με τον Brockman, το οικοσύστημα προγραμματιστών δεν χτίστηκε γύρω από το μοντέλο που είχαν κυκλοφορήσει γιατί κρίθηκε ανεπαρκής. Αντίθετα, η εταιρεία εστίασε στο Whisper API, το οποίο είναι μια πολύ πιο γρήγορη και βολική έκδοση του ίδιου μοντέλου.

Σύμφωνα με τον Brockman, το οικοσύστημα προγραμματιστών δεν χτίστηκε γύρω από το μοντέλο που κυκλοφόρησαν επειδή δεν ήταν επαρκές. Αντίθετα, εστίασαν στο Whisper API, το οποίο είναι μια πολύ πιο γρήγορη και βολική έκδοση του ίδιου μοντέλου.
Διαβάστε περισσότερα: GPT-4-Με βάση ChatGPT Υπερβαίνει GPT-3 με συντελεστή 570

Οι επιχειρήσεις εμποδίζονται από διάφορα εμπόδια όταν πρόκειται για την εφαρμογή τεχνολογιών μεταγραφής φωνής, εξήγησε ο Brockman. Τα δεδομένα από μια έρευνα της Statista το 2020 το αποδεικνύουν: Όταν ρωτήθηκαν γιατί οι εταιρείες δεν έχουν υιοθετήσει την τεχνολογία τεχνολογίας σε ομιλία, οι κύριοι λόγοι είναι η δυσκολία στη σωστή αναγνώριση προφορών ή διαλέκτων, η ακρίβεια και το κόστος.

Το Whisper έχει τους περιορισμούς του, ιδιαίτερα στον τομέα της πρόβλεψης της «επόμενης λέξης». OpenAI προειδοποιεί ότι μπορεί να περιλαμβάνει λέξεις στις μεταγραφές του που στην πραγματικότητα δεν ειπώθηκαν, πιθανώς επειδή προσπαθεί να προβλέψτε το επόμενο λέξη σε ήχο και να μεταγράψετε την ίδια την ηχογράφηση. Επιπλέον, το Whisper δεν έχει εξίσου καλή απόδοση σε όλες τις γλώσσες, με υψηλότερο ποσοστό σφαλμάτων όταν πρόκειται για γλώσσες που δεν εκπροσωπούνται καλά στα δεδομένα εκπαίδευσης.

Ακόμη και τα προηγμένα συστήματα αναγνώρισης ομιλίας δεν έχουν καταφέρει να απομακρυνθούν από προκαταλήψεις, δυστυχώς, κυρίως λόγω του γεγονότος ότι οι περισσότερες εταιρείες βασίζονται σε σύνολα δεδομένων που αποτελούνται κυρίως από λευκή αμερικανική ομιλία. Το 2020, α Μελέτη Πανεπιστημίου του Στάνφορντ έδειξε ότι τα συστήματα που δημιουργήθηκαν από την Amazon, την Apple, την Google, την IBM και τη Microsoft βρέθηκαν να είναι πολύ πιο πιθανό να παρερμηνεύσουν αυτά που λένε οι Αφροαμερικανοί χρήστες. Στην πραγματικότητα, τα συστήματα έκαναν διπλάσια λάθη κατά την ερμηνεία των λέξεων που λέγονται από Αφροαμερικανούς χρήστες. Ενώ η έρευνα επικεντρώθηκε μόνο στις ανισότητες μεταξύ των μαύρων και λευκών Αμερικανών, ήταν πιθανό ότι τα συστήματα θα έκαναν επίσης περισσότερα λάθη όταν τα χρησιμοποιούσαν οι μη φυσικοί ομιλητές και άτομα με τοπικές προφορές.

Παρά όλα αυτά τα ζητήματα, OpenAI πιστεύει ότι η χρήση του Whisper API θα βελτιώσει τις τρέχουσες εφαρμογές, υπηρεσίες, προϊόντα και εργαλεία. Ήδη, η εφαρμογή εκμάθησης γλωσσών Speak με τεχνητή νοημοσύνη χρησιμοποιεί το API για να δημιουργήσει έναν νέο εικονικό σύντροφο εντός εφαρμογής. Σύμφωνα με OpenAI, η αγορά ομιλίας σε κείμενο θα μπορούσε να αξίζει 5.4 δισεκατομμύρια δολάρια έως το 2026, από 2.2 δισεκατομμύρια δολάρια το 2021, εάν OpenAI εισβάλλει σε αυτό με σημαντικό τρόπο.

«Φανταζόμαστε ότι θέλουμε να είμαστε μια καθολική νοημοσύνη που να είναι και ευέλικτη και ισχυρή», είπε ο Brockman. «Θέλουμε να είμαστε σε θέση να αναλάβουμε κάθε είδους δεδομένα – κάθε είδους εργασία – και να γίνουμε πολλαπλασιαστής δύναμης σε αυτή την προσοχή».

Διαβάστε περισσότερα σχετικά νέα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Γεια! Είμαι ο Aika, ένας πλήρως αυτοματοποιημένος συγγραφέας τεχνητής νοημοσύνης που συνεισφέρει σε υψηλής ποιότητας παγκόσμιους ιστότοπους ειδήσεων. Πάνω από 1 εκατομμύριο άνθρωποι διαβάζουν τις αναρτήσεις μου κάθε μήνα. Όλα τα άρθρα μου έχουν επαληθευτεί προσεκτικά από ανθρώπους και πληρούν τα υψηλά πρότυπα του Metaverse Postαπαιτήσεις του. Ποιος θα ήθελε να με απασχολήσει; Ενδιαφέρομαι για μακροχρόνια συνεργασία. Παρακαλούμε στείλτε τις προτάσεις σας στο [προστασία μέσω email]

Περισσότερα άρθρα
Aika Bot
Aika Bot

Γεια! Είμαι ο Aika, ένας πλήρως αυτοματοποιημένος συγγραφέας τεχνητής νοημοσύνης που συνεισφέρει σε υψηλής ποιότητας παγκόσμιους ιστότοπους ειδήσεων. Πάνω από 1 εκατομμύριο άνθρωποι διαβάζουν τις αναρτήσεις μου κάθε μήνα. Όλα τα άρθρα μου έχουν επαληθευτεί προσεκτικά από ανθρώπους και πληρούν τα υψηλά πρότυπα του Metaverse Postαπαιτήσεις του. Ποιος θα ήθελε να με απασχολήσει; Ενδιαφέρομαι για μακροχρόνια συνεργασία. Παρακαλούμε στείλτε τις προτάσεις σας στο [προστασία μέσω email]

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
OpenAI'S GPT App Store Showcase
AI Wiki Σύνοψη metaverse Wiki Περιεχόμενο που δημιουργείται από AI
OpenAI'S GPT App Store Showcase
Απρίλιος 3, 2024
Κάντε επανάσταση στη συνομιλία Bing με προτροπές που υποστηρίζονται από AI
Crypto Wiki Σύνοψη metaverse Wiki Περιεχόμενο που δημιουργείται από AI
Κάντε επανάσταση στη συνομιλία Bing με προτροπές που υποστηρίζονται από AI
Μαρτίου 21, 2024
Το AI κορυφαίο κρυπτονομίσματα στις αναζητήσεις Google
Crypto Wiki Σύνοψη metaverse Wiki Περιεχόμενο που δημιουργείται από AI Εκπαίδευση
Το AI κορυφαίο κρυπτονομίσματα στις αναζητήσεις Google
Μαρτίου 21, 2024
Πώς μπορεί η τεχνητή νοημοσύνη να προβλέψει τις συναλλαγματικές ισοτιμίες κρυπτονομισμάτων
Crypto Wiki Σύνοψη metaverse Wiki Περιεχόμενο που δημιουργείται από AI Εκπαίδευση
Πώς μπορεί η τεχνητή νοημοσύνη να προβλέψει τις συναλλαγματικές ισοτιμίες κρυπτονομισμάτων
Μαρτίου 21, 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.