Αναφορά ειδήσεων Τεχνολογία
Φεβρουάριος 15, 2023

SingSong: Ερευνητές τεχνητής νοημοσύνης της Google βρίσκουν έναν τρόπο να δημιουργήσουν μουσική που να συνοδεύει φωνητικά εισόδου

Εν συντομία

Το νέο σύστημα που ονομάζεται SingSong χρησιμοποιεί ένα βαθύ μοντέλο μάθησης για τη δημιουργία μουσικής που είναι περισσότερο σε συγχρονισμό με το τραγούδι παρά με τα υπάρχοντα συστήματα.

Οι ερευνητές λένε ότι το σύστημα θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία κομματιών καραόκε για επαγγελματίες τραγουδιστές ή για να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν τη συνοδεία που ταιριάζει με τις φωνές τους.

Ερευνητές της Google βρήκαν έναν τρόπο να χρησιμοποιούν την τεχνητή νοημοσύνη για να παράγουν μουσική που να είναι συμβατή με το τραγούδι. Το νέο σύστημα, που ονομάζεται SingSong, χρησιμοποιεί ένα μοντέλο βαθιάς μάθησης για να δημιουργήσει συνοδεία που είναι περισσότερο συγχρονισμένη με το τραγούδι από άλλα υπάρχοντα συστήματα. Οι ερευνητές λένε ότι το σύστημα θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία κομματιών καραόκε για επαγγελματίες τραγουδιστές ή για να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν τη συνοδεία που ταιριάζει καλύτερα στη φωνή τους.

Καραόκε αντίστροφα: Ερευνητές τεχνητής νοημοσύνης βρίσκουν έναν τρόπο να δημιουργήσουν μουσική για τραγούδι
Τα προηγούμενα συστήματα για τη δημιουργία συνοδείας βασίζονταν σε αλγόριθμους που προσπαθούν να ταιριάζουν με το χρόνο και τον τόνο του τραγουδιού.

Τραγουδούν το τραγούδι είναι ένα σύστημα που αναπτύχθηκε από την Google που δημιουργεί οργανική μουσική για να συνοδεύει τα φωνητικά εισόδου. Μπορεί να παρέχει τόσο σε μουσικούς όσο και σε μη μουσικούς μια απλή νέα προσέγγιση για τη δημιουργία μουσικής που να έχει τις δικές τους φωνές. Οι προγραμματιστές βασίζονται στις πρόσφατες εξελίξεις στον διαχωρισμό μουσικών πηγών και στην παραγωγή ήχου για να το επιτύχουν. Οι προγραμματιστές χρησιμοποιούν συγκεκριμένα μια πρωτοποριακή μέθοδο διαχωρισμού πηγών για να δημιουργήσουν ευθυγραμμισμένα ζεύγη πηγών φωνητικών και οργάνων από ένα τεράστιο σύνολο μουσικών ηχογραφήσεων. Στη συνέχεια, οι προγραμματιστές τροποποιούν AudioLM, μια μέθοδο αιχμής για παραγωγή ήχου άνευ όρων, έτσι ώστε να μπορεί να εκπαιδευτεί σε ζεύγη διαχωρισμένα από την πηγή (φωνητικά, οργανικά) για εργασίες παραγωγής υπό όρους «ήχου-προς-ήχου».

Προτεινόμενη ανάρτηση: Κορυφαίες 5 γεννήτριες μουσικής και ήχου AI για τη δημιουργία κομματιών χωρίς δικαιώματα

Οι ερευνητές της τεχνητής νοημοσύνης διερευνούν διαφορετικούς χαρακτηρισμούς φωνητικών εισόδων, η καλύτερη από τις οποίες ενισχύει την ποσοτική απόδοση σε μεμονωμένα φωνητικά κατά 53% σε σύγκριση με την προεπιλεγμένη λειτουργία AudioLM, προκειμένου να βελτιώσουν τη γενίκευση του συστήματος από δεδομένα εκπαίδευσης που χωρίζονται από την πηγή (όπου τα φωνητικά περιέχουν τεχνουργήματα του instrumental) έως μεμονωμένα φωνητικά που οι προγραμματιστές μπορεί να περιμένουν από τους χρήστες. Οι ακροατές επέδειξαν σημαντική προτίμηση για τα όργανα που παράγονται από το SingSong σε σχέση με εκείνα από μια ισχυρή γραμμή βάσης ανάκτησης σε μια σύγκριση ανά ζεύγη με τις ίδιες φωνητικές εισόδους.

Το νέο σύστημα, αντίθετα, χρησιμοποιεί α μοντέλο βαθιάς μάθησης που έχει εκπαιδευτεί σε ένα μεγάλο σύνολο δεδομένων μουσικής. Αυτό επιτρέπει στο σύστημα να δημιουργήσει συνοδεία που είναι σε συγχρονισμό με τη φωνή και το χρόνο του τραγουδιστή.

Για τη μελέτη, δίνονται στους ακροατές δύο φωνητικά-οργανικά mashup διάρκειας 10 δευτερολέπτων στα οποία οι φωνές (που λαμβάνονται από το τεστ MUSDB18) είναι οι ίδιες ενώ τα όργανα διαφέρουν και προέρχονται από διάφορες πηγές (αλήθεια εδάφους, google μοντέλα, ή βασικές γραμμές). Η ερώτηση ζητά από τους ακροατές να επιλέξουν ποιον από τους δύο συνδυασμούς αισθάνονται ότι τα οργανικά στηρίγματα ταιριάζουν περισσότερο μουσικά στα φωνητικά.

Προτεινόμενη ανάρτηση: Κορυφαίες 7 γεννήτριες φωνής AI και κλωνοποίηση φωνής για μετατροπή κειμένου σε ομιλία

Τα φρέσκα παραδείγματα του SingSong

Χρησιμοποιώντας μια σειρά από βαθιά νευρωνικά δίκτυα και γενετικά μοντέλα, οι προγραμματιστές μπορούν να παράγουν αρμονικά συνοδευτικά χωρίς καθυστέρηση για μεγαλύτερα τμήματα.

Οι επαγγελματικές φωνές του συνόλου δεδομένων MUSDB18 χρησιμοποιήθηκαν στα προηγούμενα παραδείγματα. Μας ιντριγκάρει επίσης η ικανότητα του SingSong να υποστηρίζει και να επιτρέπει σε οποιονδήποτε να δημιουργεί μουσική με τη φωνή του. Εδώ, το εξετάζουμε χρησιμοποιώντας δείγματα φωνητικών από το σύνολο δεδομένων Vocadito, το οποίο περιλαμβάνει ηχογραφήσεις ερασιτεχνών τραγουδιστών που έγιναν σε ηλεκτρονικά είδη ευρείας κατανάλωσης.

Το σύστημα βρίσκεται ακόμη στα αρχικά στάδια ανάπτυξης. Ενώ οι ερευνητές λένε ότι θα πρέπει να βελτιωθεί για να μπορέσει να χρησιμοποιηθεί εμπορικά, πιστεύουν ότι έχει τη δυνατότητα να φέρει επανάσταση στη βιομηχανία του καραόκε και να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν συνοδεία που τους λειτουργεί καλά.

Διαβάστε περισσότερα σχετικά άρθρα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
Business Αναφορά ειδήσεων Τεχνολογία
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
3 Μαΐου 2024
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
3 Μαΐου 2024
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
3 Μαΐου 2024
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
Business Αναφορά ειδήσεων Τεχνολογία
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
3 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.