Νέα OpenAI Τα μοντέλα ήχου ενισχύουν τους φωνητικούς βοηθούς σε πραγματικό χρόνο με πολυγλωσσική μετάφραση και ευφυΐα ροής
Εν συντομία
OpenAI κυκλοφόρησε GPT-Μοντέλα Realtime-2, Translate και Whisper, που επεκτείνουν την Τεχνητή Νοημοσύνη φωνής σε πραγματικό χρόνο με συλλογισμό, μετάφραση και μεταγραφή για προηγμένες εφαρμογές συνομιλίας.

OpenAI ανακοίνωσε ένα νέο σύνολο μοντέλων ήχου στο οικοσύστημα API της, σηματοδοτώντας μια επέκταση των δυνατοτήτων φωνής σε πραγματικό χρόνο για προγραμματιστές και εφαρμογές που βασίζονται στην Τεχνητή Νοημοσύνη. Η κυκλοφορία περιλαμβάνει GPT-Πραγματικός χρόνος-2, GPT-Μετάφραση σε πραγματικό χρόνο και GPT-Realtime-Whisper, καθένα σχεδιασμένο για να επιτρέπει πιο προηγμένες, ευέλικτες και ευαίσθητες στο περιβάλλον φωνητικές αλληλεπιδράσεις σε μια σειρά από περιπτώσεις χρήσης.
GPT-Το Realtime-2 τοποθετείται ως το πιο προηγμένο φωνητικό μοντέλο της εταιρείας μέχρι σήμερα, παρουσιάζοντας GPT-5-κλάση συλλογισμού σε ζωντανές ηχητικές συνομιλίες. Το μοντέλο έχει σχεδιαστεί για να χειρίζεται σύνθετα αιτήματα χρηστών, να διατηρεί τη συνέχεια των συμφραζομένων και να υποστηρίζει συλλογισμό πολλαπλών βημάτων ενώ αλληλεπιδρά σε πραγματικό χρόνο. Προορίζεται για εφαρμογές όπου οι φωνητικοί πράκτορες πρέπει όχι μόνο να ανταποκρίνονται γρήγορα, αλλά και να ερμηνεύουν την πρόθεση, να διαχειρίζονται τις διακοπές και να εκτελούν εργασίες μέσω της ενσωματωμένης χρήσης εργαλείων.
Δίπλα του, GPTΤο -Realtime-Translate επιτρέπει τη ζωντανή μετάφραση ομιλίας από περισσότερες από 70 γλώσσες εισόδου σε 13 γλώσσες εξόδου. Το σύστημα έχει σχεδιαστεί για να διατηρεί τη ροή της συνομιλίας διατηρώντας παράλληλα το νόημα και τον συγχρονισμό, επιτρέποντας στους ομιλητές να επικοινωνούν σε διαφορετικές γλώσσες χωρίς αισθητές καθυστερήσεις. Αυτή η δυνατότητα στοχεύει στην παγκόσμια υποστήριξη πελατών, την εκπαίδευση, τα ταξίδια και τις διασυνοριακές υπηρεσίες επικοινωνίας.
Το τρίτο μοντέλο, GPT-Το Realtime-Whisper, εστιάζει στη ροή μεταγραφής ομιλίας σε κείμενο. Παρέχει συνεχή μεταγραφή με χαμηλή καθυστέρηση καθώς οι χρήστες μιλούν, επιτρέποντας λεζάντες σε πραγματικό χρόνο, ζωντανή τεκμηρίωση και άμεση επεξεργασία προφορικού περιεχομένου. Το μοντέλο έχει σχεδιαστεί για περιβάλλοντα όπου απαιτείται γρήγορη μετατροπή ομιλίας σε κείμενο, όπως συσκέψεις, εκπομπές πολυμέσων και ροές εργασίας επιχειρήσεων.
OpenAI περιέγραψε τη συνδυασμένη κυκλοφορία ως ένα βήμα προς φωνητικές διεπαφές που ξεπερνούν τα βασικά συστήματα εντολών και απόκρισης. Αντί να αναγνωρίζουν απλώς την ομιλία και να δημιουργούν απαντήσεις, τα μοντέλα προορίζονται να υποστηρίζουν συνεχή συλλογισμό, μετάφραση, μεταγραφή και εκτέλεση ενεργειών μέσα σε μια ενιαία ροή συνομιλίας. Στόχος είναι να καταστούν δυνατά συστήματα που βασίζονται στη φωνή και να μπορούν να λειτουργούν περισσότερο σαν διαδραστικοί βοηθοί ικανοί να ολοκληρώνουν εργασίες διατηρώντας παράλληλα φυσικό διάλογο.
GPT-Το Realtime-2 προωθεί την αρχιτεκτονική φωνητικής τεχνητής νοημοσύνης με συστήματα φωνής-σε-δράση και διευρυμένα παράθυρα περιβάλλοντος
Η εταιρεία τόνισε διάφορα αναδυόμενα πρότυπα σχεδιασμού που καθιερώνονται από την τεχνολογία. Αυτά περιλαμβάνουν συστήματα φωνητικής μετατροπής, όπου οι χρήστες μπορούν να περιγράψουν εργασίες που εκτελούνται μέσω αυτοματοποιημένης συλλογιστικής και ενσωμάτωσης εργαλείων, εφαρμογές συστημάτων-φωνής, όπου το λογισμικό δημιουργεί φωνητική καθοδήγηση με βάση δεδομένα περιβάλλοντος, και συστήματα φωνητικής μετάφρασης, τα οποία επιτρέπουν την πολύγλωσση επικοινωνία σε πραγματικό χρόνο μεταξύ ομιλητών.
GPT-Το Realtime-2 εισάγει πρόσθετες αρχιτεκτονικές βελτιώσεις για χρήση στην παραγωγή. Αυτές περιλαμβάνουν μεγαλύτερα παράθυρα περιβάλλοντος που επεκτείνονται σε 128 διακριτικά, βελτιωμένη συμπεριφορά ανάκτησης κατά τη διάρκεια διακοπών ή σφαλμάτων, παράλληλη εκτέλεση εργαλείων με διαφανή ανατροφοδότηση και πιο ελεγχόμενη προσαρμογή τόνου ανάλογα με το περιβάλλον συνομιλίας. Οι προγραμματιστές μπορούν επίσης να βελτιώσουν τα επίπεδα συλλογισμού για να εξισορροπήσουν την ταχύτητα και την πολυπλοκότητα με βάση τις ανάγκες της εφαρμογής.
Σημεία αναφοράς απόδοσης που αναφέρονται από OpenAI υποδεικνύουν βελτιωμένα αποτελέσματα σε εργασίες συλλογισμού που βασίζονται σε ήχο και παρακολούθησης οδηγιών σε σύγκριση με προηγούμενες επαναλήψεις των μοντέλων πραγματικού χρόνου. Το σύστημα επιδεικνύει επίσης ισχυρότερο χειρισμό ορολογίας που αφορά συγκεκριμένο τομέα και πιο σταθερή συμπεριφορά σε περιβάλλοντα συνομιλίας πολλαπλών στροφών.
Η έκδοση ενσωματώνει επίσης μηχανισμούς ασφαλείας, όπως παρακολούθηση σε πραγματικό χρόνο και ταξινόμηση περιεχομένου εντός ενεργών περιόδων σύνδεσης, μαζί με ελέγχους σε επίπεδο προγραμματιστή για πρόσθετες διασφαλίσεις. Τα μοντέλα είναι διαθέσιμα μέσω του Realtime API και είναι τοποθετημένα για ανάπτυξη σε εφαρμογές επιχειρήσεων, καταναλωτών και προγραμματιστών, με την τιμολόγηση να διαμορφώνεται με βάση μετρήσεις επεξεργασίας ήχου που βασίζονται στη χρήση.
Η εισαγωγή της GPTΤο -Realtime-2 και τα συνοδευτικά του μοντέλα αντικατοπτρίζουν μια ευρύτερη στροφή προς συστήματα υπολογισμού που βασίζονται στη φωνή, ικανά για συλλογισμό, μετάφραση και μεταγραφή σε πραγματικό χρόνο, με στόχο να καταστεί η προφορική αλληλεπίδραση με το λογισμικό πιο λειτουργική, προσαρμοστική και λειτουργικά ικανή.
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται σε κρυπτονομίσματα, τεχνητή νοημοσύνη, επενδύσεις και στον εκτεταμένο τομέα των Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.
Περισσότερα άρθρα
Alisa, αφοσιωμένη δημοσιογράφος στο MPost, ειδικεύεται σε κρυπτονομίσματα, τεχνητή νοημοσύνη, επενδύσεις και στον εκτεταμένο τομέα των Web3. Με έντονο μάτι για τις αναδυόμενες τάσεις και τεχνολογίες, παρέχει ολοκληρωμένη κάλυψη για την ενημέρωση και την εμπλοκή των αναγνωστών στο συνεχώς εξελισσόμενο τοπίο της ψηφιακής χρηματοδότησης.



