Η Google παρουσιάζει καινοτόμα Generative Image Dynamics που προσομοιώνουν δυναμικές σκηνές σε στατικές εικόνες
Η Google αποκάλυψε ένα Generative Image Dynamics, μια νέα προσέγγιση επιτρέπει τον μετασχηματισμό του α ενιαία στατική εικόνα σε ένα βίντεο χωρίς ροπές ή μια διαδραστική δυναμική σκηνή, που προσφέρει ένα ευρύ φάσμα πρακτικών εφαρμογών.
Στον πυρήνα αυτής της πρωτοποριακής τεχνολογίας είναι η μοντελοποίηση ενός χώρου εικόνας πριν από τη δυναμική στη σκηνή. Ο στόχος είναι να δημιουργηθεί μια ολοκληρωμένη κατανόηση του τρόπου με τον οποίο μπορεί να συμπεριφέρονται αντικείμενα και στοιχεία μέσα σε μια εικόνα όταν υποβάλλονται σε διάφορες δυναμικές αλληλεπιδράσεις. Αυτή η κατανόηση μπορεί στη συνέχεια να χρησιμοποιηθεί για την αποτελεσματική προσομοίωση της απόκρισης της δυναμικής αντικειμένων στις αλληλεπιδράσεις των χρηστών.
Το βασικό χαρακτηριστικό αυτής της τεχνολογίας είναι η δυνατότητα δημιουργίας βίντεο χωρίς ροπή. Αξιοποιώντας τον χώρο εικόνας πριν από τη δυναμική σκηνής, το σύστημα της Google μπορεί να επεκτείνει και να επεκτείνει την κίνηση των στοιχείων μέσα σε μια εικόνα, μετατρέποντάς την σε έναν συναρπαστικό και συνεχή βρόχο βίντεο. Αυτή η λειτουργία ανοίγει πολλές δημιουργικές δυνατότητες για δημιουργούς περιεχομένου και σχεδιαστές.
Η τεχνολογία επιτρέπει στους χρήστες να αλληλεπιδρούν ρεαλιστικά με αντικείμενα εντός στατικών εικόνων. Με την προσομοίωση της απόκρισης της δυναμικής των αντικειμένων στη διέγερση του χρήστη, το σύστημα της Google επιτρέπει καθηλωτικές και διαδραστικές εμπειρίες μέσα σε εικόνες. Αυτό έχει τη δυνατότητα να φέρει επανάσταση μεταφυσικοί χώροι και πώς οι χρήστες αλληλεπιδρούν με οπτικό περιεχόμενο.
Η βάση αυτής της καινοτομίας βρίσκεται σε ένα σχολαστικά εκπαιδευμένο μοντέλο. Το μοντέλο της Google μαθαίνει από ένα τεράστιο σύνολο δεδομένων τροχιών κίνησης που εξάγονται από πραγματικές ακολουθίες βίντεο που διαθέτουν φυσική, ταλαντευόμενη κίνηση. Αυτές οι ακολουθίες περιλαμβάνουν σκηνές με στοιχεία όπως δέντρα να ταλαντεύονται, λουλούδια να κινούνται, κεριά να τρεμοπαίζουν και ρούχα να φουντώνουν στον αέρα. Αυτό το ποικίλο σύνολο δεδομένων επιτρέπει στο μοντέλο να κατανοήσει ένα ευρύ φάσμα δυναμικών συμπεριφορών.
Όταν παρουσιάζεται με α Ενιαία εικόνα, το εκπαιδευμένο μοντέλο χρησιμοποιεί μια διαδικασία δειγματοληψίας διάχυσης συντονισμένης συχνότητας. Αυτή η διαδικασία προβλέπει μια μακροπρόθεσμη αναπαράσταση κίνησης ανά εικονοστοιχείο στον τομέα Fourier, που ονομάζεται υφή νευρικής στοχαστικής κίνησης. Αυτή η αναπαράσταση στη συνέχεια μετατρέπεται σε πυκνές τροχιές κίνησης που καλύπτουν ένα ολόκληρο βίντεο. Σε συνδυασμό με μια μονάδα απόδοσης που βασίζεται σε εικόνα, αυτές οι τροχιές μπορούν να αξιοποιηθούν για διάφορες πρακτικές εφαρμογές.
Σε σύγκριση με τα προηγούμενα σε σχέση με τα ακατέργαστα εικονοστοιχεία RGB, τα προηγούμενα πάνω από την κίνηση αποτυπώνουν πιο θεμελιώδη, υποδιάστατη δομή χαμηλότερων διαστάσεων που εξηγεί αποτελεσματικά τις διακυμάνσεις στις τιμές των εικονοστοιχείων. Αυτό οδηγεί σε πιο συνεκτική μακροπρόθεσμη παραγωγή και πιο λεπτομερή έλεγχο των κινούμενων εικόνων σε σύγκριση με προηγούμενες μεθόδους που εκτελούν κινούμενα σχέδια εικόνας μέσω ακατέργαστης σύνθεσης βίντεο.
Η αναπαράσταση παραγόμενης κίνησης είναι βολική για έναν αριθμό μεταγενέστερων εφαρμογών, όπως η δημιουργία βίντεο με συνεχή βρόχο, η επεξεργασία της παραγόμενης κίνησης και η ενεργοποίηση διαδραστικών δυναμικές εικόνες, προσομοίωση της απόκρισης της δυναμικής των αντικειμένων στις δυνάμεις που εφαρμόζει ο χρήστης.
Διαβάστε περισσότερα σχετικά θέματα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.