Αναφορά ειδήσεων Τεχνολογία
Ιανουάριος 03, 2024

Το AI Startup MyShell κυκλοφορεί τον αλγόριθμο OpenVoice για ακριβή κλωνοποίηση φωνής

Εν συντομία

Η καναδική startup τεχνητής νοημοσύνης MyShell ανακοίνωσε ότι έχει δημιουργήσει ανοιχτού κώδικα τον αλγόριθμο OpenVoice για άμεση κλωνοποίηση φωνής.

Το AI Startup MyShell κυκλοφορεί τον αλγόριθμο OpenVoice για ακριβή κλωνοποίηση φωνής

Respeecher, Voicemod και Eleven Labs – και οι τρεις startups έχουν ένα κοινό χαρακτηριστικό – όλες παρέχουν αλγόριθμους και λογισμικό τεχνητής νοημοσύνης για τη δημιουργία κλώνων φωνής. Τώρα, ένας νέος παίκτης, η καναδική startup τεχνητής νοημοσύνης MyShell ανακοίνωσε ότι έχει ανοιχτού κώδικα τον αλγόριθμο OpenVoice για άμεση κλωνοποίηση φωνής.

Η MyShell κοινοποίησε την ενημέρωση στις πλατφόρμα κοινωνικής δικτύωσης X και είπε, "Κλωνοποιήστε τις φωνές με απαράμιλλη ακρίβεια, με λεπτομερή έλεγχο του τόνου, από το συναίσθημα μέχρι την προφορά, τον ρυθμό, τις παύσεις και τον τονισμό, χρησιμοποιώντας μόνο ένα μικρό ηχητικό κλιπ."

Στο πλαίσιο της συνεργασίας, ερευνητές από το MIT, το MyShell.ai και το Πανεπιστήμιο Tsinghua παρουσίασαν το OpenVoice, το οποίο μπορεί να αναπαράγει τη φωνή ενός ομιλητή και να παράγει ομιλία σε Πολλαπλών γλωσσών, χρησιμοποιώντας μόνο ένα σύντομο ηχητικό απόσπασμα από την αρχική πηγή. Αποτυπώνει επίσης τον μοναδικό τόνο και το χρώμα της φωνής του ομιλητή.

Σύμφωνα με την εταιρεία, ο αλγόριθμος προσθέτει κρίσιμα στιλιστικά στοιχεία όπως συναίσθημα, προφορά, ρυθμό, παύσεις και τονισμό. Αυτά τα στοιχεία είναι ζωτικής σημασίας για να ακούγεται η ομιλία αληθινή και να δημιουργούν ενδιαφέρουσες συνομιλίες. Βοηθά στην αποφυγή του βαρετού ήχου που λαμβάνετε συχνά με την κανονική μετατροπή κειμένου σε ομιλία.

Πώς λειτουργεί το μοντέλο τεχνητής νοημοσύνης με κλωνοποίηση φωνής

Σε ερευνητική εργασία, το OpenVoice μοιράστηκε τη μεθοδολογία πίσω από την τεχνητή νοημοσύνη κλωνοποίησης φωνής. Το OpenVoice αποτελείται από δύο ξεχωριστά Μοντέλα AI: ένα μοντέλο κειμένου σε ομιλία (TTS) και ένας "μετατροπέας τόνου".

Το μοντέλο μπορεί να διαχειριστεί παραμέτρους στυλ και γλώσσες και έχει υποβληθεί σε «εκπαίδευση με χρήση 30,000 προτάσεων» από αγγλικά (σε αμερικανική και βρετανική προφορά), κινέζους και ιαπωνικούς ομιλητές. Η εκπαίδευση περιελάμβανε την επισήμανση των δειγμάτων με βάση τα εκφραζόμενα συναισθήματα και το μοντέλο έμαθε τον τονισμό, το ρυθμό και τις παύσεις από αυτά τα ηχητικά κλιπ.

Από την άλλη πλευρά, το μοντέλο μετατροπέα τόνου εκπαιδεύτηκε σε ένα τεράστιο σύνολο δεδομένων με περισσότερα από 300,000 δείγματα ήχου από περισσότερα από 20,000 διαφορετικά ηχεία. Και στις δύο περιπτώσεις, ο ήχος της ανθρώπινης ομιλίας μετατράπηκε σε φωνήματα - συγκεκριμένους ήχους που διαφοροποιούν τις λέξεις - και αναπαραστάθηκαν χρησιμοποιώντας ενσωματώσεις διανυσμάτων.

Το μοντέλο TTS, που χρησιμοποιεί ένα «βασικό ηχείο», συνδυάζεται με τον τόνο που προέρχεται από τον εγγεγραμμένο ήχο του χρήστη στη διαδικασία εκπαίδευσης. Μαζί, αυτά τα δύο μοντέλα μπορούν να αναπαράγουν τη φωνή του χρήστη και να τροποποιήσουν το χρώμα του τόνου - τη συναισθηματική έκφραση που μεταφέρεται στο προφορικό κείμενο.

Η startup ιδρύθηκε το 2023. Πέρυσι, η MyShell συγκέντρωσε 5.6 εκατομμύρια δολάρια σε χρηματοδότηση εκκίνησης, με επικεφαλής την INCE Capital, και συμμετείχαν εξέχοντες επενδυτές όπως οι Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC και OP Crypto, μεταξύ άλλων.

Σύμφωνα με την εταιρεία, η χρηματοδότηση θα βοηθήσει στην προώθηση της ιδιοκτησίας Μοντέλα AI, τη δημιουργία ενός Creator Studio προσαρμοσμένου για εφαρμογές τεχνητής νοημοσύνης και τη δημιουργία ενός ζωντανού οικοσυστήματος δημιουργών στη σφαίρα της τεχνολογίας blockchain.

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Kumar είναι ένας έμπειρος Τεχνικός Δημοσιογράφος με εξειδίκευση στις δυναμικές διασταυρώσεις της AI/ML, της τεχνολογίας μάρκετινγκ και των αναδυόμενων τομέων όπως η κρυπτογράφηση, η αλυσίδα μπλοκ και η NFTμικρό. Με περισσότερα από 3 χρόνια εμπειρίας στον κλάδο, η Kumar έχει δημιουργήσει ένα αποδεδειγμένο ιστορικό στη δημιουργία συναρπαστικών αφηγήσεων, τη διεξαγωγή οξυδερκών συνεντεύξεων και την παροχή ολοκληρωμένων πληροφοριών. Η τεχνογνωσία της Kumar έγκειται στην παραγωγή περιεχομένου υψηλής απήχησης, συμπεριλαμβανομένων άρθρων, εκθέσεων και ερευνητικών δημοσιεύσεων για εξέχουσες πλατφόρμες του κλάδου. Με ένα μοναδικό σύνολο δεξιοτήτων που συνδυάζει τεχνικές γνώσεις και αφήγηση, ο Kumar διαπρέπει στην επικοινωνία σύνθετων τεχνολογικών εννοιών σε διαφορετικά κοινά με σαφή και ελκυστικό τρόπο.

Περισσότερα άρθρα
Kumar Gandharv
Kumar Gandharv

Ο Kumar είναι ένας έμπειρος Τεχνικός Δημοσιογράφος με εξειδίκευση στις δυναμικές διασταυρώσεις της AI/ML, της τεχνολογίας μάρκετινγκ και των αναδυόμενων τομέων όπως η κρυπτογράφηση, η αλυσίδα μπλοκ και η NFTμικρό. Με περισσότερα από 3 χρόνια εμπειρίας στον κλάδο, η Kumar έχει δημιουργήσει ένα αποδεδειγμένο ιστορικό στη δημιουργία συναρπαστικών αφηγήσεων, τη διεξαγωγή οξυδερκών συνεντεύξεων και την παροχή ολοκληρωμένων πληροφοριών. Η τεχνογνωσία της Kumar έγκειται στην παραγωγή περιεχομένου υψηλής απήχησης, συμπεριλαμβανομένων άρθρων, εκθέσεων και ερευνητικών δημοσιεύσεων για εξέχουσες πλατφόρμες του κλάδου. Με ένα μοναδικό σύνολο δεξιοτήτων που συνδυάζει τεχνικές γνώσεις και αφήγηση, ο Kumar διαπρέπει στην επικοινωνία σύνθετων τεχνολογικών εννοιών σε διαφορετικά κοινά με σαφή και ελκυστικό τρόπο.

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
Το Crypto Exchange OKX παραθέτει το Notcoin, πρόκειται να εισαγάγει το Spot Trading με το ζεύγος NOT-USDT στις 16 Μαΐου
αγορές Αναφορά ειδήσεων Τεχνολογία
Το Crypto Exchange OKX παραθέτει το Notcoin, πρόκειται να εισαγάγει το Spot Trading με το ζεύγος NOT-USDT στις 16 Μαΐου  
10 Μαΐου 2024
Η Blast εγκαινιάζει την τρίτη εκδήλωση Blast Gold Distribution, εκχωρεί 15 εκατομμύρια πόντους σε DApps
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Blast εγκαινιάζει την τρίτη εκδήλωση Blast Gold Distribution, εκχωρεί 15 εκατομμύρια πόντους σε DApps
10 Μαΐου 2024
Η Espresso Systems συνεργάζεται με τα Polygon Labs για την ανάπτυξη του AggLayer για τη βελτίωση της διαλειτουργικότητας συνάθροισης
Business Αναφορά ειδήσεων Τεχνολογία
Η Espresso Systems συνεργάζεται με τα Polygon Labs για την ανάπτυξη του AggLayer για τη βελτίωση της διαλειτουργικότητας συνάθροισης
9 Μαΐου 2024
Πρωτόκολλο υποδομής που λειτουργεί με ZKP Η ZKBase αποκαλύπτει οδικό χάρτη, σχεδιάζει να κυκλοφορήσει το Testnet τον Μάιο
Αναφορά ειδήσεων Τεχνολογία
Πρωτόκολλο υποδομής που λειτουργεί με ZKP Η ZKBase αποκαλύπτει οδικό χάρτη, σχεδιάζει να κυκλοφορήσει το Testnet τον Μάιο
9 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.