Το AI Startup MyShell κυκλοφορεί τον αλγόριθμο OpenVoice για ακριβή κλωνοποίηση φωνής
Εν συντομία
Η καναδική startup τεχνητής νοημοσύνης MyShell ανακοίνωσε ότι έχει δημιουργήσει ανοιχτού κώδικα τον αλγόριθμο OpenVoice για άμεση κλωνοποίηση φωνής.
Respeecher, Voicemod και Eleven Labs – και οι τρεις startups έχουν ένα κοινό χαρακτηριστικό – όλες παρέχουν αλγόριθμους και λογισμικό τεχνητής νοημοσύνης για τη δημιουργία κλώνων φωνής. Τώρα, ένας νέος παίκτης, η καναδική startup τεχνητής νοημοσύνης MyShell ανακοίνωσε ότι έχει ανοιχτού κώδικα τον αλγόριθμο OpenVoice για άμεση κλωνοποίηση φωνής.
Η MyShell κοινοποίησε την ενημέρωση στις πλατφόρμα κοινωνικής δικτύωσης X και είπε, "Κλωνοποιήστε τις φωνές με απαράμιλλη ακρίβεια, με λεπτομερή έλεγχο του τόνου, από το συναίσθημα μέχρι την προφορά, τον ρυθμό, τις παύσεις και τον τονισμό, χρησιμοποιώντας μόνο ένα μικρό ηχητικό κλιπ."
Στο πλαίσιο της συνεργασίας, ερευνητές από το MIT, το MyShell.ai και το Πανεπιστήμιο Tsinghua παρουσίασαν το OpenVoice, το οποίο μπορεί να αναπαράγει τη φωνή ενός ομιλητή και να παράγει ομιλία σε Πολλαπλών γλωσσών, χρησιμοποιώντας μόνο ένα σύντομο ηχητικό απόσπασμα από την αρχική πηγή. Αποτυπώνει επίσης τον μοναδικό τόνο και το χρώμα της φωνής του ομιλητή.
Σύμφωνα με την εταιρεία, ο αλγόριθμος προσθέτει κρίσιμα στιλιστικά στοιχεία όπως συναίσθημα, προφορά, ρυθμό, παύσεις και τονισμό. Αυτά τα στοιχεία είναι ζωτικής σημασίας για να ακούγεται η ομιλία αληθινή και να δημιουργούν ενδιαφέρουσες συνομιλίες. Βοηθά στην αποφυγή του βαρετού ήχου που λαμβάνετε συχνά με την κανονική μετατροπή κειμένου σε ομιλία.
Πώς λειτουργεί το μοντέλο τεχνητής νοημοσύνης με κλωνοποίηση φωνής
Σε ερευνητική εργασία, το OpenVoice μοιράστηκε τη μεθοδολογία πίσω από την τεχνητή νοημοσύνη κλωνοποίησης φωνής. Το OpenVoice αποτελείται από δύο ξεχωριστά Μοντέλα AI: ένα μοντέλο κειμένου σε ομιλία (TTS) και ένας "μετατροπέας τόνου".
Το μοντέλο μπορεί να διαχειριστεί παραμέτρους στυλ και γλώσσες και έχει υποβληθεί σε «εκπαίδευση με χρήση 30,000 προτάσεων» από αγγλικά (σε αμερικανική και βρετανική προφορά), κινέζους και ιαπωνικούς ομιλητές. Η εκπαίδευση περιελάμβανε την επισήμανση των δειγμάτων με βάση τα εκφραζόμενα συναισθήματα και το μοντέλο έμαθε τον τονισμό, το ρυθμό και τις παύσεις από αυτά τα ηχητικά κλιπ.
Από την άλλη πλευρά, το μοντέλο μετατροπέα τόνου εκπαιδεύτηκε σε ένα τεράστιο σύνολο δεδομένων με περισσότερα από 300,000 δείγματα ήχου από περισσότερα από 20,000 διαφορετικά ηχεία. Και στις δύο περιπτώσεις, ο ήχος της ανθρώπινης ομιλίας μετατράπηκε σε φωνήματα - συγκεκριμένους ήχους που διαφοροποιούν τις λέξεις - και αναπαραστάθηκαν χρησιμοποιώντας ενσωματώσεις διανυσμάτων.
Το μοντέλο TTS, που χρησιμοποιεί ένα «βασικό ηχείο», συνδυάζεται με τον τόνο που προέρχεται από τον εγγεγραμμένο ήχο του χρήστη στη διαδικασία εκπαίδευσης. Μαζί, αυτά τα δύο μοντέλα μπορούν να αναπαράγουν τη φωνή του χρήστη και να τροποποιήσουν το χρώμα του τόνου - τη συναισθηματική έκφραση που μεταφέρεται στο προφορικό κείμενο.
Η startup ιδρύθηκε το 2023. Πέρυσι, η MyShell συγκέντρωσε 5.6 εκατομμύρια δολάρια σε χρηματοδότηση εκκίνησης, με επικεφαλής την INCE Capital, και συμμετείχαν εξέχοντες επενδυτές όπως οι Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC και OP Crypto, μεταξύ άλλων.
Σύμφωνα με την εταιρεία, η χρηματοδότηση θα βοηθήσει στην προώθηση της ιδιοκτησίας Μοντέλα AI, τη δημιουργία ενός Creator Studio προσαρμοσμένου για εφαρμογές τεχνητής νοημοσύνης και τη δημιουργία ενός ζωντανού οικοσυστήματος δημιουργών στη σφαίρα της τεχνολογίας blockchain.
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Kumar είναι ένας έμπειρος Τεχνικός Δημοσιογράφος με εξειδίκευση στις δυναμικές διασταυρώσεις της AI/ML, της τεχνολογίας μάρκετινγκ και των αναδυόμενων τομέων όπως η κρυπτογράφηση, η αλυσίδα μπλοκ και η NFTμικρό. Με περισσότερα από 3 χρόνια εμπειρίας στον κλάδο, η Kumar έχει δημιουργήσει ένα αποδεδειγμένο ιστορικό στη δημιουργία συναρπαστικών αφηγήσεων, τη διεξαγωγή οξυδερκών συνεντεύξεων και την παροχή ολοκληρωμένων πληροφοριών. Η τεχνογνωσία της Kumar έγκειται στην παραγωγή περιεχομένου υψηλής απήχησης, συμπεριλαμβανομένων άρθρων, εκθέσεων και ερευνητικών δημοσιεύσεων για εξέχουσες πλατφόρμες του κλάδου. Με ένα μοναδικό σύνολο δεξιοτήτων που συνδυάζει τεχνικές γνώσεις και αφήγηση, ο Kumar διαπρέπει στην επικοινωνία σύνθετων τεχνολογικών εννοιών σε διαφορετικά κοινά με σαφή και ελκυστικό τρόπο.
Περισσότερα άρθραΟ Kumar είναι ένας έμπειρος Τεχνικός Δημοσιογράφος με εξειδίκευση στις δυναμικές διασταυρώσεις της AI/ML, της τεχνολογίας μάρκετινγκ και των αναδυόμενων τομέων όπως η κρυπτογράφηση, η αλυσίδα μπλοκ και η NFTμικρό. Με περισσότερα από 3 χρόνια εμπειρίας στον κλάδο, η Kumar έχει δημιουργήσει ένα αποδεδειγμένο ιστορικό στη δημιουργία συναρπαστικών αφηγήσεων, τη διεξαγωγή οξυδερκών συνεντεύξεων και την παροχή ολοκληρωμένων πληροφοριών. Η τεχνογνωσία της Kumar έγκειται στην παραγωγή περιεχομένου υψηλής απήχησης, συμπεριλαμβανομένων άρθρων, εκθέσεων και ερευνητικών δημοσιεύσεων για εξέχουσες πλατφόρμες του κλάδου. Με ένα μοναδικό σύνολο δεξιοτήτων που συνδυάζει τεχνικές γνώσεις και αφήγηση, ο Kumar διαπρέπει στην επικοινωνία σύνθετων τεχνολογικών εννοιών σε διαφορετικά κοινά με σαφή και ελκυστικό τρόπο.