VToonify: Ένα μοντέλο τεχνητής νοημοσύνης σε πραγματικό χρόνο για τη δημιουργία καλλιτεχνικών βίντεο πορτρέτου
Εν συντομία
Ένα επαναστατικό πλαίσιο VToonify αναπτύχθηκε από προγραμματιστές για να παρέχει ελεγχόμενες, υψηλής ανάλυσης μεταφορές σε στυλ βίντεο πορτρέτου.
Για να δημιουργήσετε εκπληκτικά καλλιτεχνικά πορτρέτα, το πλαίσιο χρησιμοποιεί τα επίπεδα μεσαίας και υψηλής ανάλυσης του StyleGAN.
Επιτρέπει την επέκταση των υπαρχόντων που βασίζονται σε StyleGAN Μοντέλα τονωτικοποίησης εικόνας σε βίντεο.
Ερευνητές από το Τεχνολογικό Πανεπιστήμιο Nanyang έχουν παρουσίασε ένα νέο πλαίσιο VToonify για να δημιουργήσετε ελεγχόμενη μεταφορά σε στυλ βίντεο πορτρέτου υψηλής ανάλυσης. Το VToonify αξιοποιεί τα επίπεδα μεσαίας και υψηλής ανάλυσης του StyleGAN για να αποδώσει υψηλής ποιότητας καλλιτεχνικά πορτρέτα με βάση τα χαρακτηριστικά περιεχομένου πολλαπλής κλίμακας που εξάγονται από έναν κωδικοποιητή για καλύτερη διατήρηση των λεπτομερειών του πλαισίου. Τα πειραματικά αποτελέσματα δείχνουν ότι το πλαίσιο μας μπορεί να δημιουργήσει βίντεο με σταθερά υψηλή ποιότητα και επιθυμητές εκφράσεις προσώπου χωρίς την ανάγκη ευθυγράμμισης προσώπου ή περιορισμών μεγέθους καρέ.
Ως αποτέλεσμα, μια πλήρως συνελικτική αρχιτεκτονική που δέχεται μη ευθυγραμμισμένα πρόσωπα σε βίντεο διαφόρων μεγεθών παράγει πλήρεις όψεις με οργανικές κινήσεις. Το πλαίσιο VToonify κληρονομεί ελκυστικά χαρακτηριστικά αυτών των μοντέλων για ευέλικτο έλεγχο στυλ στο χρώμα και την ένταση. Είναι συμβατό με τα υπάρχοντα μοντέλα τονοποίησης εικόνων που βασίζονται στο StyleGAN για να τα επεκτείνει και σε βίντεο. Αυτή η εργασία εισάγει δύο στιγμιότυπα του VToonify για μεταφορά στυλ βίντεο πορτρέτου βάσει συλλογής και βάσει υποδειγμάτων, αντίστοιχα, βασισμένα στο Toonify και στο DualStyleGAN.
Εκτεταμένα πειραματικά ευρήματα δείχνουν ότι το προτεινόμενο πλαίσιο VToonify ξεπερνά τις ανταγωνιστικές προσεγγίσεις στην παραγωγή καλλιτεχνικών ταινιών πορτρέτου με ρυθμιζόμενους ελέγχους στυλ που είναι εξαιρετικής ποιότητας και χρονικά συνεπείς. Ελεγχος GitHub Για περισσότερες πληροφορίες.
Προκειμένου να παρέχει μια ελεγχόμενη μεταφορά στυλ βίντεο πορτρέτου υψηλής ανάλυσης, το VToonify συνδυάζει τα πλεονεκτήματα του πλαισίου μετάφρασης εικόνας και του πλαισίου που βασίζεται στο StyleGAN.
(Α) Για την υποστήριξη μεταβλητού μεγέθους εισόδου, ένα σύστημα μετάφρασης εικόνας χρησιμοποιεί πλήρως συνελικτικά δίκτυα. Ωστόσο, είναι δύσκολο να προσδίδεις υψηλής ανάλυσης και ελεγχόμενο στυλ όταν διδάσκεις από την αρχή.
(Β) Το πλαίσιο που βασίζεται στο StyleGAN, το οποίο υποστηρίζει μόνο σταθερές απώλειες μεγέθους εικόνας και λεπτομέρειας, χρησιμοποιεί το προεκπαιδευμένο μοντέλο StyleGAN για μεταφορά στυλ υψηλής ανάλυσης και ελέγχου.
(Γ) Προκειμένου να δημιουργηθεί μια εντελώς συνελικτική αρχιτεκτονική κωδικοποιητή-γεννήτριας που μοιάζει με αυτή του πλαισίου μετάφρασης εικόνας, το υβριδικό μας σύστημα επεκτείνει το StyleGAN διαγράφοντας τη δυνατότητα εισόδου σταθερού μεγέθους και τα επίπεδα χαμηλής ανάλυσης.
Προκειμένου να διατηρηθούν οι λεπτομέρειες του πλαισίου, οι προγραμματιστές εκπαιδεύουν έναν κωδικοποιητή για να εξάγει λειτουργίες περιεχομένου πολλαπλής κλίμακας από το πλαίσιο εισόδου ως πρόσθετη συνθήκη περιεχομένου. Το VToonify κληρονομεί την ευελιξία ελέγχου στυλ του μοντέλου StyleGAN τοποθετώντας το στη γεννήτρια για να αποστάξει τόσο τα δεδομένα όσο και το μοντέλο του.
Σχετικό άρθρο: Η Lambda Labs ανακοίνωσε έναν μίκτη εικόνων AI που μπορεί να συνδυάσει έως και πέντε εικόνες |
Το πλαίσιο VToonify κληρονομεί τα ελκυστικά χαρακτηριστικά για ευέλικτο έλεγχο στυλ από τα τρέχοντα μοντέλα βελτιστοποίησης εικόνας που βασίζονται στο StyleGAN και είναι συμβατό με αυτά για να τα επεκτείνει σε βίντεο τονισμό. Το VToonify προσφέρει τα ακόλουθα χρησιμοποιώντας το μοντέλο DualStyleGAN ως βάση StyleGAN:
- Μεταφορά στυλ από δομές που βασίζονται σε υποδείγματα.
- Τροποποίηση πτυχίου στυλ.
- Μεταφορά στυλ χρώματος με βάση υποδείγματα.
Διαβάστε περισσότερα για το AI:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.