VALL-E: Το νέο μοντέλο μηδενικής λήψης κειμένου σε ομιλία της Microsoft μπορεί να αντιγράψει τη φωνή όλων σε τρία δευτερόλεπτα
Εν συντομία
Με μόνο ένα δείγμα τριών δευτερολέπτων οποιασδήποτε φωνής, το μοντέλο TTS που βασίζεται σε μετασχηματιστή Το VALL-E μπορεί να παράγει ομιλία σε κάθε φωνή.
Αυτή είναι μια σημαντική πρόοδος προς την κατεύθυνση των συστημάτων TTS με πιο φυσικό ήχο.
Ωστόσο, η Microsoft έχει παράσχει μερικά δείγματα του μοντέλου που χρησιμοποιείται και είναι προφανές ότι αυτό αντιπροσωπεύει μια σημαντική εξέλιξη στην τεχνολογία TTS.
Από την κυκλοφορία του πρώτου μοντέλου μετατροπής κειμένου σε ομιλία (TTS), οι ερευνητές αναζητούν τρόπους για να βελτιώσουν τον τρόπο με τον οποίο αυτά τα συστήματα παράγουν ομιλία. Το πιο πρόσφατο μοντέλο της Microsoft, ΚΟΙΛΑΔΑ, αποτελεί ένα σημαντικό βήμα προόδου από αυτή την άποψη.
Το VALL-E είναι ένα μοντέλο TTS που βασίζεται σε μετασχηματιστή που μπορεί να δημιουργήσει ομιλία σε οποιαδήποτε φωνή αφού ακούσει μόνο ένα δείγμα τριών δευτερολέπτων αυτής της φωνής. Αυτή είναι μια σημαντική βελτίωση σε σχέση με προηγούμενα μοντέλα, τα οποία απαιτούσαν πολύ μεγαλύτερη περίοδο εκπαίδευσης για να δημιουργηθεί μια νέα φωνή.
Σχετικό άρθρο: Η Microsoft κυκλοφόρησε ένα μοντέλο διάχυσης που μπορεί να δημιουργήσει ένα 3D avatar από μια φωτογραφία ενός ατόμου |
Επιπλέον, ο τονισμός, το χάρισμα και το στυλ της φωνής διατηρούνται ανέπαφα στην ομιλία που δημιουργείται. Αυτό είναι ένα σημαντικό βήμα προς τα εμπρός για να κάνουμε τα συστήματα TTS να ακούγονται πιο φυσικά.
Αυτό το μοντέλο βασίζεται σε μετασχηματιστή και έχει εμφάνιση Dale-1. Δεν πρέπει να συγχέεται με το Dalle-2 που βασίζεται στη διάχυση. Ο κωδικός εξακολουθεί να λείπει. Και οι χρήστες έχουν κάποιο σκεπτικισμό ότι θα το δημοσιεύσουν.
Σχετικό άρθρο: Το VALL-E της Microsoft φαίνεται να είναι το πιο επικίνδυνο λογισμικό απάτης όλων των εποχών |
Ωστόσο, η Microsoft έχει κυκλοφορήσει μερικά παραδείγματα του μοντέλου σε δράση και είναι σαφές ότι πρόκειται για μια σημαντική πρόοδο στην τεχνολογία TTS.
Παράδειγμα #1:
Παράδειγμα #2:
Παράδειγμα #3:
Διαβάστε περισσότερα για το AI:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.