Η Google AI ανακοίνωσε την πρώτη συσκευή δημιουργίας κειμένου σε μουσική AudioLM
Εν συντομία
Το AudioLM μπορεί να παράγει μουσική μόνο ακούγοντας ήχους
Mubert AI να συνεχίσει την ανθρώπινη ομιλία και τη μουσική πιάνου
Με GPT-3 και άλλοι, η ιδέα της γενετικής τεχνητής νοημοσύνης έχει καλές πιθανότητες να προχωρήσει. Ανακαλύψαμε επίσης τις έννοιες του inpainting και του outpainting. Το AI ολοκληρώνει επιδέξια τις εικόνες διατηρώντας το θέμα και το στυλ. Τι γίνεται με τη μουσική;
Και πάλι! Δεδομένου ότι όλα αυτά βασίζονται σε μοντέλα γλώσσας AI που διατηρούν το νόημα, ήταν απλώς θέμα χρόνου να εφαρμοστεί αυτή η τεχνολογία στη μουσική. Και τώρα ήρθε η ώρα.
Σύμφωνα με πρόσφατη έρευνα της Google, ένα νέο πλαίσιο για την παραγωγή ήχου που ονομάζεται AudioLM μπορεί να διδαχθεί για τη δημιουργία ρεαλιστικής ομιλίας και μουσικής για πιάνο απλά ακούγοντας ήχους. Λόγω της μακροπρόθεσμης συνέπειας και της εξαιρετικής πιστότητάς του, το AudioLM ξεπερνά τα προηγούμενα συστήματα και προχωρά στη δημιουργία ήχου με εφαρμογές στη σύνθεση φωνής και τη μουσική με τη βοήθεια υπολογιστή.
AudioLM από το Google AI μπορεί να επεκτείνει ένα ακουστικό πέρασμα διατηρώντας παράλληλα «πρόθεση». Προς το παρόν, έχει εκπαιδευτεί να συνεχίζει την ανθρώπινη ομιλία και τη μουσική πιάνου, με βάση ένα περιορισμένο δείγμα δεδομένων εισόδου. Ελέγξτε το παρακάτω δείγμα.
Τα κριτήρια για την ομιλία ήταν ξεκάθαρα: Ζητήθηκε από τους ακροατές να αξιολογήσουν εάν η συνέχεια ακουγόταν σαν ανθρώπινη ομιλία. Με τη μουσική, ανακαλύφθηκε ότι η "συνέχεια" του τμήματος που παρέχεται για είσοδο είναι πολύ ανώτερη σε ποιότητα από όλες τις τρέχουσες γεννήτριες μουσικής από την αρχή, όπως π.χ. Τζουκ μποξ. Με μια πρόταση στην είσοδο, το AI συνεχίζει τη μουσική αρκετά καλύτερα.
Οι αξιολογητές ανθρώπων άκουσαν δείγματα ήχου για να επιβεβαιώσουν τα αποτελέσματα. Προσδιόρισαν αν άκουγαν μια πραγματική συνέχεια μιας ανθρώπινης φωνής που είχε ηχογραφηθεί ή μια τεχνητή φωνή που παρήχθη από την AudioLM. Τα στοιχεία τους δείχνουν ποσοστό επιτυχίας 51.2%. Ως αποτέλεσμα, θα είναι δύσκολο για τον μέσο ακροατή να διακρίνει μεταξύ της ομιλίας που παράγεται από το AudioLM και της πραγματικής ανθρώπινης ομιλίας.
Η τεχνολογία κειμένου σε μουσική αλλάζει τη μουσική επιχείρηση;
Μια συσκευή δημιουργίας κειμένου σε μουσική που βασίζεται στο Mubert API ανακοινώθηκε πρόσφατα από ένα άλλο μοντέλο AI, τον Mubert. Ο Mubert δημιουργεί ένα διαφορετικό σύνολο ήχων για κάθε αίτημα που στέλνετε. Η πιθανότητα επανάληψης είναι πολύ μικρή. Η μουσική δημιουργείται όταν υποβάλλεται ένα αίτημα. δεν έχει τραβηχτεί από μια βάση δεδομένων τελικών μελωδιών. Πόσο αληθινά γεννά αυτή τη μουσική είναι μια κοινή ερώτηση.
Οι ήχοι επιλέγονται πριν δημιουργηθούν. Τόσο η προτροπή εισόδου όσο και οι ετικέτες API Mubert κωδικοποιούνται στο λανθάνον διάνυσμα χώρου ενός νευρωνικού δικτύου μετασχηματιστή. Στη συνέχεια επιλέγεται το πλησιέστερο διάνυσμα ετικετών για κάθε ερώτημα και οι συνοδευτικές ετικέτες μεταδίδονται στο API μας για τη δημιουργία μουσικής. Δεν χρησιμοποιήθηκε νευρωνικό δίκτυο για την κατασκευή οποιουδήποτε από τους ήχους (ξεχωριστοί βρόχοι για μπάσα, απαγωγές, κ.λπ.). Όλοι οι ήχοι παρήχθησαν από μουσικούς και σχεδιαστές ήχου.
Το επόμενο σημαντικό βήμα του Mubert είναι να πάρει αντικείμενα από τον τρέχοντα κόσμο, όπως φωτογραφίες, ταινίες, σενάρια και παρουσιάσεις, και να δημιουργήσει τη μουσική του κόσμου γύρω σας.
Δείτε τι μπορείτε να πετύχετε βάζοντας αλόγιστα μηνύματα κειμένου στο στόμα του μιούζικαλ Mubert AI:
Αυτό είναι το αρχικό στάδιο στη διαδικασία δημιουργίας ενός πιο εξελιγμένου και ακριβούς αλγορίθμου παραγωγής, αλλά αυτό θα πάρει χρόνο και χρήμα.
Ωστόσο, η τεχνολογία μετατροπής κειμένου σε μουσική είναι ήδη διαθέσιμη, επομένως μπορείτε να δημιουργήσετε άλμπουμ μαζικά, απενεργοποιώντας το "input prompt" για το "write a random prompt script". Φαίνεται ότι δεν απαιτούνται πλέον καλλιτέχνες.
Διαβάστε περισσότερα σχετικά νέα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.