Κείμενο σε 3D: Η Google έχει αναπτύξει ένα νευρωνικό δίκτυο που δημιουργεί τρισδιάστατα μοντέλα από περιγραφές κειμένου
Εν συντομία
Κείμενο σε 3D Το νευρωνικό δίκτυο μπορεί να δημιουργήσει τρισδιάστατα μοντέλα από κείμενο
Το DreamFusion βελτιστοποιεί τις τρισδιάστατες σκηνές με βάση το Imagen text-to-image
Το μοντέλο διάχυσης 2D μπορεί να χρησιμοποιηθεί για σύνθεση κειμένου σε εικόνα
Η Google δημιούργησε ένα νευρικό σύστημα ικανό να δημιουργεί τρισδιάστατα μοντέλα από περιγραφές κειμένου. Το καλύτερο είναι ότι η πιο δύσκολη πτυχή δεν χρειαζόταν καν να διδαχθεί. Το Imagen χρησιμοποιήθηκε ως βάση για το Text-to-3D.
Τι πρέπει να γνωρίζετε DreamFusion?
Τα μοντέλα διάχυσης που έχουν εκπαιδευτεί σε δισεκατομμύρια ζεύγη εικόνας-κειμένου έχουν οδηγήσει σε πρόσφατες προόδους στη σύνθεση κειμένου σε εικόνα. Η προσαρμογή αυτής της προσέγγισης στη σύνθεση 3D θα απαιτήσει μεγάλης κλίμακας σύνολα δεδομένων με επισημασμένα 3D στοιχεία, καθώς και αποτελεσματικές αρχιτεκτονικές δεδομένων 3D για την αποθορυβοποίηση, καμία από τις οποίες δεν είναι επί του παρόντος διαθέσιμη. Σε αυτό το άρθρο, ξεπερνάμε αυτούς τους περιορισμούς εκτελώντας σύνθεση κειμένου σε 3D με ένα προεκπαιδευμένο 2D διάχυση κειμένου σε εικόνα μοντέλο. Παρουσιάζουμε μια απώλεια με βάση την απόσταξη πυκνότητας πιθανότητας που επιτρέπει τη χρήση ενός μοντέλου διάχυσης 2D ως προηγουμένως για τη βελτιστοποίηση ενός παραμετρικού γεννήτρια εικόνων. Χρησιμοποιώντας αυτήν την απώλεια, χρησιμοποιούμε gradient descent για να βελτιστοποιήσουμε ένα τυχαία αρχικοποιημένο τρισδιάστατο μοντέλο (ένα Πεδίο νευρικής ακτινοβολίας ή NeRF) έτσι ώστε οι δισδιάστατες αποδόσεις του από τυχαίες γωνίες να έχουν ελάχιστη απώλεια.
Το δημιουργημένο τρισδιάστατο μοντέλο του καθορισμένου κειμένου μπορεί να προβληθεί από οποιαδήποτε γωνία, να φωτιστεί με μεταβλητό φωτισμό και να συντεθεί σε οποιοδήποτε τρισδιάστατο περιβάλλον. Η μέθοδός του δεν απαιτεί τρισδιάστατα δεδομένα εκπαίδευσης και καμία αλλαγή στο μοντέλο διάχυσης εικόνας, που απεικονίζει την αποτελεσματικότητα της χρήσης προεκπαιδευμένων μοντέλων διάχυσης εικόνας όπως προηγουμένως.
Παραδείγματα δημιουργημένου 3D από κείμενο
Συναρμολόγηση αντικειμένων για να δημιουργήσετε μια σκηνή
Πώς λειτουργεί;
Το DreamFusion βελτιστοποιεί μια τρισδιάστατη σκηνή με βάση μια λεζάντα χρησιμοποιώντας το μοντέλο δημιουργίας κειμένου σε εικόνα Imagen. Προτείνει το Score Distillation Sampling (SDS), το οποίο περιλαμβάνει τη βελτιστοποίηση μιας συνάρτησης απώλειας για την παραγωγή δειγμάτων από ένα μοντέλο διάχυσης. Εφόσον μπορούμε να αντιστοιχίσουμε τις εικόνες με διαφορετικό τρόπο, το SDS μας δίνει τη δυνατότητα να βελτιστοποιούμε δείγματα σε οποιονδήποτε χώρο παραμέτρων, όπως έναν τρισδιάστατο χώρο. Προς την defiΣε αυτήν τη διαφοροποιήσιμη χαρτογράφηση, χρησιμοποιεί μια τρισδιάστατη παραμετροποίηση σκηνής που μοιάζει με τα πεδία νευρωνικής ακτινοβολίας ή τα NeRF. Το SDS μόνο δημιουργεί μια βατή εμφάνιση σκηνής, αλλά το DreamFusion βελτιώνει τη γεωμετρία με επιπλέον ρυθμιστές και τεχνικές βελτιστοποίησης. Τα εκπαιδευμένα NeRF που παράγονται είναι συνεκτικά, έχουν εξαιρετική κανονικότητα, γεωμετρία επιφάνειας και βάθος και μπορούν να φωτιστούν εκ νέου χρησιμοποιώντας ένα μοντέλο σκίασης Lambertian.
Διαβάστε σχετικά άρθρα:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.