Αναφορά ειδήσεων SMW Τεχνολογία
30 Μαΐου 2023

SoundStorm: Η Google αποκαλύπτει τρομακτικό εργαλείο AI με δυνατότητα αναπαραγωγής φωνής σε πραγματικό χρόνο

Εν συντομία

Η Google εισήγαγε το SoundStorm, ένα μοντέλο αιχμής για αποτελεσματική και μη επαναληπτική παραγωγή ήχου.

Χρησιμοποιεί αμφίδρομη προσοχή και παράλληλη αποκωδικοποίηση βασισμένη στην εμπιστοσύνη για τη δημιουργία ήχου υψηλής ποιότητας, ενώ μειώνει σημαντικά τον χρόνο παραγωγής.

Έχει επίσης την ικανότητα να συνθέτει φυσικούς διαλόγους.

Η Google παρουσίασε την τελευταία της καινοτομία στην τεχνολογία τεχνητής νοημοσύνης με SoundStorm, ένα μοντέλο αιχμής για αποτελεσματική και μη αυτοπαλινδρομική παραγωγή ήχου. Με την ικανότητα να συνθέτουν διαλόγους με διαφορετικές φωνές, το SoundStorm ανοίγει νέες δυνατότητες για εφαρμογές όπως η παραγωγή περιεχομένου ήχου από γραπτό κείμενο και η δημιουργία ρεαλιστικών podcast.

SoundStorm: Η Google αποκαλύπτει τρομακτικό εργαλείο AI με δυνατότητα αναπαραγωγής φωνής σε πραγματικό χρόνο
@Midjourney

Σε αντίθεση με τον προκάτοχό του AudioLM, Το SoundStorm χρησιμοποιεί μια νέα αρχιτεκτονική που παράγει ήχο σε κομμάτια των 30 δευτερολέπτων, βελτιώνοντας την απόδοση. Χρησιμοποιώντας αμφίδρομη προσοχή και παράλληλη αποκωδικοποίηση βασισμένη στην εμπιστοσύνη, το μοντέλο παράγει ήχο υψηλής ποιότητας ενώ μειώνει σημαντικά τον χρόνο παραγωγής. Στο υλικό TPU-v4 της Google, το SoundStorm μπορεί να δημιουργήσει 30 δευτερόλεπτα ήχου σε μόλις 0.5 δευτερόλεπτα, σημειώνοντας μια σημαντική βελτίωση της ταχύτητας.

Η εκπαίδευση του SoundStorm διεξήχθη χρησιμοποιώντας ένα τεράστιο σύνολο δεδομένων 100,000 ωρών διαλόγου, διασφαλίζοντας μια ισχυρή κατανόηση των προφορικών γλωσσικών προτύπων. Το μοντέλο επιτυγχάνει εντυπωσιακή συνέπεια στις συνθήκες φωνής και ακουστικής ενώ διατηρεί την ποιότητα ήχου που επιτυγχάνει το AudioLM. Αυτή η ανακάλυψη κάνει το SoundStorm δύο τάξεις μεγέθους ταχύτερο από τον προκάτοχό του, αποδεικνύοντας τις δυνατότητές του για κλιμακούμενη παραγωγή ήχου.

Μία από τις βασικές δυνατότητες του SoundStorm είναι η ικανότητά του να συνθέτει φυσικούς διαλόγους αξιοποιώντας το στάδιο μοντελοποίησης κειμένου σε σημασιολογία του SPEAR-TTS. Παρέχοντας μεταγραφές με στροφές ομιλητών και σύντομες φωνητικές προτροπές, οι χρήστες μπορούν να ελέγχουν το προφορικό περιεχόμενο και τις φωνές των ομιλητών. Κατά τη διάρκεια της δοκιμής, το SoundStorm έδειξε την ικανότητα σύνθεσης τμημάτων διαλόγου 30 δευτερολέπτων σε μόλις 2 δευτερόλεπτα σε ένα μόνο TPU-v4, επιδεικνύοντας την αποτελεσματικότητα και την ευελιξία του.

Φωνητική υπόδειξη

Συνθετικός Διάλογος

Σε σύγκριση με τις τυπικές γραμμές βάσης, ο ήχος που δημιουργείται από το SoundStorm είναι ισοδύναμης ποιότητας με το AudioLM και επιδεικνύει ανώτερη συνέπεια και ακουστική ακεραιότητα. Συγκεκριμένα, όταν ζητείται να δώσει ένα δείγμα ομιλίας, το μοντέλο διατηρεί τη φωνή του ομιλητή με εκπληκτική ακρίβεια, ενισχύοντας σημαντικά την ικανότητά του να δημιουργεί ζωντανό διάλογο.

Ενώ οι δυνατότητες του SoundStorm είναι εξαιρετικές, είναι κρίσιμο να αναγνωρίσουμε και να λύσουμε πιθανές ηθικές ανησυχίες. Τα δεδομένα εκπαίδευσης για τον αλγόριθμο ενδέχεται να εισάγουν προκαταλήψεις που σχετίζονται με προφορές και χαρακτηριστικά φωνής. Η ικανότητα μίμησης φωνών θα μπορούσε να γίνει κατάχρηση μίμηση ή για την παράκαμψη της βιομετρικής ταυτοποίησης. Η Google υπογραμμίζει τη σημασία της θέσπισης μέτρων προστασίας για την αποτροπή τέτοιων καταχρήσεων και διασφαλίζοντας την ανιχνευσιμότητα του δημιουργημένου ήχου μέσω αποκλειστικών ταξινομητών.

Οι ηθικές αρχές τεχνητής νοημοσύνης της Google καθοδηγούν τις συνεχείς προσπάθειές της για την αντιμετώπιση πιθανών κινδύνων και περιορισμών. Ο οργανισμός συνειδητοποιεί την ανάγκη να κάνει μια ενδελεχή μελέτη των δεδομένων εκπαίδευσης και τις επιπτώσεις για τα αποτελέσματα του μοντέλου. Σκοπεύουν επίσης να διερευνήσουν πρόσθετες προσεγγίσεις, όπως η ηχητική υδατοσήμανση, για την ανίχνευση συνθετικής ομιλίας για να κάνουν ηθική χρήση αυτής της τεχνολογίας.

  • Το SoundStorm είναι ένα μεγάλο βήμα προς τα εμπρός στην παραγωγή ήχου με τεχνητή νοημοσύνη, παρέχοντας υψηλής ποιότητας και αποτελεσματικές αναπαραστάσεις ήχου που προέρχονται από νευρωνικό κωδικοποιητή ήχου. Η Google αναμένει ότι οι χαμηλότερες ανάγκες μνήμης και επεξεργασίας του SoundStorm θα κάνουν την έρευνα παραγωγής ήχου πιο προσιτή σε μια ευρύτερη κοινότητα. Η Google παραμένει αφοσιωμένη στη διατήρηση των υπεύθυνων πρακτικών τεχνητής νοημοσύνης και στη διασφάλιση της ασφαλούς και υπεύθυνης χρήσης του SoundStorm και συγκρίσιμων ανακαλύψεων στον τομέα καθώς εξελίσσεται η τεχνολογία.
  • ΚΟΙΛΑΔΑ, το πιο πρόσφατο μοντέλο μετατροπής κειμένου σε ομιλία (TTS) της Microsoft, είναι ένα τεράστιο βήμα προς τα εμπρός για τη βελτίωση του τρόπου με τον οποίο αυτά τα συστήματα παράγουν φωνή. VALL-E είναι α Μοντέλο TTS βασίζεται σε μετασχηματιστές που μπορούν να δημιουργήσουν ομιλία σε οποιαδήποτε φωνή αφού ακούσουν μόνο ένα δείγμα τριών δευτερολέπτων αυτής της φωνής. Αυτή είναι μια μεγάλη πρόοδος σε σχέση με προηγούμενα μοντέλα, τα οποία απαιτούσαν μια σημαντικά μεγαλύτερη περίοδο εκπαίδευσης για την ανάπτυξη μιας νέας φωνής.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα

Οι ιδρυτές του πορτοφολιού Samourai κατηγορούνται για διευκόλυνση $2 δις σε προσφορές Darknet

Η σύλληψη των ιδρυτών του Samourai Wallet αντιπροσωπεύει μια αξιοσημείωτη οπισθοδρόμηση για τον κλάδο, υπογραμμίζοντας την επίμονη ...

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
Business Αναφορά ειδήσεων Τεχνολογία
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
2 Μαΐου 2024
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
Business Αναφορά ειδήσεων Τεχνολογία
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
2 Μαΐου 2024
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
Business Αναφορά ειδήσεων Τεχνολογία
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
2 Μαΐου 2024
Ο Med-Gemini της Google είναι έτοιμος να δώσει το προβάδισμα GPT-4 Με τις Ανώτερες Επιδόσεις του στην Υγεία
AI Wiki Νέα λογισμικό Τεχνολογία
Ο Med-Gemini της Google είναι έτοιμος να δώσει το προβάδισμα GPT-4 Με τις Ανώτερες Επιδόσεις του στην Υγεία
2 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.