Αναφορά ειδήσεων
Σεπτέμβριος 30, 2022

Κείμενο σε 3D: Η Google έχει αναπτύξει ένα νευρωνικό δίκτυο που δημιουργεί τρισδιάστατα μοντέλα από περιγραφές κειμένου

Εν συντομία

Κείμενο σε 3D Το νευρωνικό δίκτυο μπορεί να δημιουργήσει τρισδιάστατα μοντέλα από κείμενο

Το DreamFusion βελτιστοποιεί τις τρισδιάστατες σκηνές με βάση το Imagen text-to-image

Το μοντέλο διάχυσης 2D μπορεί να χρησιμοποιηθεί για σύνθεση κειμένου σε εικόνα

Η Google δημιούργησε ένα νευρικό σύστημα ικανό να δημιουργεί τρισδιάστατα μοντέλα από περιγραφές κειμένου. Το καλύτερο είναι ότι η πιο δύσκολη πτυχή δεν χρειαζόταν καν να διδαχθεί. Το Imagen χρησιμοποιήθηκε ως βάση για το Text-to-3D.

Κείμενο σε 3D: Η Google έχει αναπτύξει ένα νευρωνικό δίκτυο που δημιουργεί τρισδιάστατα μοντέλα από περιγραφές κειμένου

Τι πρέπει να γνωρίζετε DreamFusion?

Τα μοντέλα διάχυσης που έχουν εκπαιδευτεί σε δισεκατομμύρια ζεύγη εικόνας-κειμένου έχουν οδηγήσει σε πρόσφατες προόδους στη σύνθεση κειμένου σε εικόνα. Η προσαρμογή αυτής της προσέγγισης στη σύνθεση 3D θα απαιτήσει μεγάλης κλίμακας σύνολα δεδομένων με επισημασμένα 3D στοιχεία, καθώς και αποτελεσματικές αρχιτεκτονικές δεδομένων 3D για την αποθορυβοποίηση, καμία από τις οποίες δεν είναι επί του παρόντος διαθέσιμη. Σε αυτό το άρθρο, ξεπερνάμε αυτούς τους περιορισμούς εκτελώντας σύνθεση κειμένου σε 3D με ένα προεκπαιδευμένο 2D διάχυση κειμένου σε εικόνα μοντέλο. Παρουσιάζουμε μια απώλεια με βάση την απόσταξη πυκνότητας πιθανότητας που επιτρέπει τη χρήση ενός μοντέλου διάχυσης 2D ως προηγουμένως για τη βελτιστοποίηση ενός παραμετρικού γεννήτρια εικόνων. Χρησιμοποιώντας αυτήν την απώλεια, χρησιμοποιούμε gradient descent για να βελτιστοποιήσουμε ένα τυχαία αρχικοποιημένο τρισδιάστατο μοντέλο (ένα Πεδίο νευρικής ακτινοβολίας ή NeRF) έτσι ώστε οι δισδιάστατες αποδόσεις του από τυχαίες γωνίες να έχουν ελάχιστη απώλεια.

Το δημιουργημένο τρισδιάστατο μοντέλο του καθορισμένου κειμένου μπορεί να προβληθεί από οποιαδήποτε γωνία, να φωτιστεί με μεταβλητό φωτισμό και να συντεθεί σε οποιοδήποτε τρισδιάστατο περιβάλλον. Η μέθοδός του δεν απαιτεί τρισδιάστατα δεδομένα εκπαίδευσης και καμία αλλαγή στο μοντέλο διάχυσης εικόνας, που απεικονίζει την αποτελεσματικότητα της χρήσης προεκπαιδευμένων μοντέλων διάχυσης εικόνας όπως προηγουμένως.

Το DreamFusion φτιάχνει μοντέλα τρισδιάστατων αναφωτιζόμενων μοντέλων με εμφάνιση, βάθος και κανονικά υψηλής πιστότητας βασισμένα σε λεζάντα. Τα αντικείμενα αναπαρίστανται ως Πεδίο Νευρωνικής Ακτινοβολίας, με προεκπαιδευμένο διάχυση κειμένου σε εικόνα πριν, όπως το Imagen που χρησιμοποιείται.

Παραδείγματα δημιουργημένου 3D από κείμενο

Προτροπή: φωτογραφία ενός σκίουρου που φοράει μια μεσαιωνική πανοπλία και παίζει σαξόφωνο
Προτροπή: φωτογραφία ενός σκίουρου που φορά ένα κομψό μπαλάκι που κάθεται σε έναν τροχό αγγειοπλαστικής και διαμορφώνει ένα πήλινο μπολ
Προτροπή: εξαιρετικά λεπτομερές μεταλλικό γλυπτό ενός σκίουρου που φορά ένα μωβ κουκούλα και οδηγεί μια μοτοσικλέτα
Προτροπή: περίπλοκο ξύλινο σκάλισμα ενός σκίουρου που φοράει μια μεσαιωνική πανοπλία και κρατά ένα katana

Συναρμολόγηση αντικειμένων για να δημιουργήσετε μια σκηνή

Πώς λειτουργεί;

Το DreamFusion βελτιστοποιεί μια τρισδιάστατη σκηνή με βάση μια λεζάντα χρησιμοποιώντας το μοντέλο δημιουργίας κειμένου σε εικόνα Imagen. Προτείνει το Score Distillation Sampling (SDS), το οποίο περιλαμβάνει τη βελτιστοποίηση μιας συνάρτησης απώλειας για την παραγωγή δειγμάτων από ένα μοντέλο διάχυσης. Εφόσον μπορούμε να αντιστοιχίσουμε τις εικόνες με διαφορετικό τρόπο, το SDS μας δίνει τη δυνατότητα να βελτιστοποιούμε δείγματα σε οποιονδήποτε χώρο παραμέτρων, όπως έναν τρισδιάστατο χώρο. Προς την defiΣε αυτήν τη διαφοροποιήσιμη χαρτογράφηση, χρησιμοποιεί μια τρισδιάστατη παραμετροποίηση σκηνής που μοιάζει με τα πεδία νευρωνικής ακτινοβολίας ή τα NeRF. Το SDS μόνο δημιουργεί μια βατή εμφάνιση σκηνής, αλλά το DreamFusion βελτιώνει τη γεωμετρία με επιπλέον ρυθμιστές και τεχνικές βελτιστοποίησης. Τα εκπαιδευμένα NeRF που παράγονται είναι συνεκτικά, έχουν εξαιρετική κανονικότητα, γεωμετρία επιφάνειας και βάθος και μπορούν να φωτιστούν εκ νέου χρησιμοποιώντας ένα μοντέλο σκίασης Lambertian.

Διαβάστε σχετικά άρθρα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
Business Αναφορά ειδήσεων Τεχνολογία
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
3 Μαΐου 2024
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
3 Μαΐου 2024
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
3 Μαΐου 2024
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
Business Αναφορά ειδήσεων Τεχνολογία
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
3 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.