SingSong: Ερευνητές τεχνητής νοημοσύνης της Google βρίσκουν έναν τρόπο να δημιουργήσουν μουσική που να συνοδεύει φωνητικά εισόδου
Εν συντομία
Το νέο σύστημα που ονομάζεται SingSong χρησιμοποιεί ένα βαθύ μοντέλο μάθησης για τη δημιουργία μουσικής που είναι περισσότερο σε συγχρονισμό με το τραγούδι παρά με τα υπάρχοντα συστήματα.
Οι ερευνητές λένε ότι το σύστημα θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία κομματιών καραόκε για επαγγελματίες τραγουδιστές ή για να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν τη συνοδεία που ταιριάζει με τις φωνές τους.
Ερευνητές της Google βρήκαν έναν τρόπο να χρησιμοποιούν την τεχνητή νοημοσύνη για να παράγουν μουσική που να είναι συμβατή με το τραγούδι. Το νέο σύστημα, που ονομάζεται SingSong, χρησιμοποιεί ένα μοντέλο βαθιάς μάθησης για να δημιουργήσει συνοδεία που είναι περισσότερο συγχρονισμένη με το τραγούδι από άλλα υπάρχοντα συστήματα. Οι ερευνητές λένε ότι το σύστημα θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία κομματιών καραόκε για επαγγελματίες τραγουδιστές ή για να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν τη συνοδεία που ταιριάζει καλύτερα στη φωνή τους.
Τραγουδούν το τραγούδι είναι ένα σύστημα που αναπτύχθηκε από την Google που δημιουργεί οργανική μουσική για να συνοδεύει τα φωνητικά εισόδου. Μπορεί να παρέχει τόσο σε μουσικούς όσο και σε μη μουσικούς μια απλή νέα προσέγγιση για τη δημιουργία μουσικής που να έχει τις δικές τους φωνές. Οι προγραμματιστές βασίζονται στις πρόσφατες εξελίξεις στον διαχωρισμό μουσικών πηγών και στην παραγωγή ήχου για να το επιτύχουν. Οι προγραμματιστές χρησιμοποιούν συγκεκριμένα μια πρωτοποριακή μέθοδο διαχωρισμού πηγών για να δημιουργήσουν ευθυγραμμισμένα ζεύγη πηγών φωνητικών και οργάνων από ένα τεράστιο σύνολο μουσικών ηχογραφήσεων. Στη συνέχεια, οι προγραμματιστές τροποποιούν AudioLM, μια μέθοδο αιχμής για παραγωγή ήχου άνευ όρων, έτσι ώστε να μπορεί να εκπαιδευτεί σε ζεύγη διαχωρισμένα από την πηγή (φωνητικά, οργανικά) για εργασίες παραγωγής υπό όρους «ήχου-προς-ήχου».
Προτεινόμενη ανάρτηση: Κορυφαίες 5 γεννήτριες μουσικής και ήχου AI για τη δημιουργία κομματιών χωρίς δικαιώματα |
Οι ερευνητές της τεχνητής νοημοσύνης διερευνούν διαφορετικούς χαρακτηρισμούς φωνητικών εισόδων, η καλύτερη από τις οποίες ενισχύει την ποσοτική απόδοση σε μεμονωμένα φωνητικά κατά 53% σε σύγκριση με την προεπιλεγμένη λειτουργία AudioLM, προκειμένου να βελτιώσουν τη γενίκευση του συστήματος από δεδομένα εκπαίδευσης που χωρίζονται από την πηγή (όπου τα φωνητικά περιέχουν τεχνουργήματα του instrumental) έως μεμονωμένα φωνητικά που οι προγραμματιστές μπορεί να περιμένουν από τους χρήστες. Οι ακροατές επέδειξαν σημαντική προτίμηση για τα όργανα που παράγονται από το SingSong σε σχέση με εκείνα από μια ισχυρή γραμμή βάσης ανάκτησης σε μια σύγκριση ανά ζεύγη με τις ίδιες φωνητικές εισόδους.
Το νέο σύστημα, αντίθετα, χρησιμοποιεί α μοντέλο βαθιάς μάθησης που έχει εκπαιδευτεί σε ένα μεγάλο σύνολο δεδομένων μουσικής. Αυτό επιτρέπει στο σύστημα να δημιουργήσει συνοδεία που είναι σε συγχρονισμό με τη φωνή και το χρόνο του τραγουδιστή.
Για τη μελέτη, δίνονται στους ακροατές δύο φωνητικά-οργανικά mashup διάρκειας 10 δευτερολέπτων στα οποία οι φωνές (που λαμβάνονται από το τεστ MUSDB18) είναι οι ίδιες ενώ τα όργανα διαφέρουν και προέρχονται από διάφορες πηγές (αλήθεια εδάφους, google μοντέλα, ή βασικές γραμμές). Η ερώτηση ζητά από τους ακροατές να επιλέξουν ποιον από τους δύο συνδυασμούς αισθάνονται ότι τα οργανικά στηρίγματα ταιριάζουν περισσότερο μουσικά στα φωνητικά.
Προτεινόμενη ανάρτηση: Κορυφαίες 7 γεννήτριες φωνής AI και κλωνοποίηση φωνής για μετατροπή κειμένου σε ομιλία |
Τα φρέσκα παραδείγματα του SingSong
Χρησιμοποιώντας μια σειρά από βαθιά νευρωνικά δίκτυα και γενετικά μοντέλα, οι προγραμματιστές μπορούν να παράγουν αρμονικά συνοδευτικά χωρίς καθυστέρηση για μεγαλύτερα τμήματα.
Οι επαγγελματικές φωνές του συνόλου δεδομένων MUSDB18 χρησιμοποιήθηκαν στα προηγούμενα παραδείγματα. Μας ιντριγκάρει επίσης η ικανότητα του SingSong να υποστηρίζει και να επιτρέπει σε οποιονδήποτε να δημιουργεί μουσική με τη φωνή του. Εδώ, το εξετάζουμε χρησιμοποιώντας δείγματα φωνητικών από το σύνολο δεδομένων Vocadito, το οποίο περιλαμβάνει ηχογραφήσεις ερασιτεχνών τραγουδιστών που έγιναν σε ηλεκτρονικά είδη ευρείας κατανάλωσης.
Το σύστημα βρίσκεται ακόμη στα αρχικά στάδια ανάπτυξης. Ενώ οι ερευνητές λένε ότι θα πρέπει να βελτιωθεί για να μπορέσει να χρησιμοποιηθεί εμπορικά, πιστεύουν ότι έχει τη δυνατότητα να φέρει επανάσταση στη βιομηχανία του καραόκε και να βοηθήσει τους ερασιτέχνες τραγουδιστές να βρουν συνοδεία που τους λειτουργεί καλά.
Διαβάστε περισσότερα σχετικά άρθρα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.