Αναφορά ειδήσεων Τεχνολογία
Νοέμβριος 17, 2022

Η Nvidia ανακοίνωσε το eDiff-I: νέο γενετικό AI για σύνθεση κειμένου και εικόνας με άμεση μεταφορά στυλ

Εν συντομία

Η Nvidia λανσάρει το eDiff-I για να βοηθήσει τις επιχειρήσεις να δημιουργήσουν εικόνες υψηλής ποιότητας, ελκυστικές

Η τεχνική eDiff-I παράγει τακτικά μεγαλύτερη ποιότητα σύνθεσης από το DALL-E2 και Stable diffusion

Το eDiff-I είναι ένα νέο εργαλείο δημιουργίας περιεχομένου AI που παρέχει πρωτοφανείς δυνατότητες σύνθεσης κειμένου σε εικόνα για εμπόρους και επιχειρήσεις, όπως ανακοινώθηκε πρόσφατα από Nvidia. Με το eDiff-I, οι επιχειρήσεις μπορούν γρήγορα και εύκολα να δημιουργήσουν υψηλής ποιότητας, ελκυστικά γραφικά χωρίς να χρειάζονται ακριβό εξοπλισμό ή επαγγελματική βοήθεια. Το eDiff-I χρησιμοποιεί επεξεργασία φυσικής γλώσσας (NLP) για να ερμηνεύσει τα δεδομένα εισόδου του χρήστη και να δημιουργήσει αντίστοιχες εικόνες. Στη συνέχεια, το AI αναλύει τις εικόνες και επιλέγει την καταλληλότερη με βάση το περιβάλλον. Το αποτέλεσμα είναι μια εικόνα υψηλής ποιότητας με επαγγελματική εμφάνιση που μπορεί να χρησιμοποιηθεί για διάφορους σκοπούς, όπως υλικό μάρκετινγκ, αναρτήσεις μέσων κοινωνικής δικτύωσης, καμπάνιες ηλεκτρονικού ταχυδρομείου και πολλά άλλα.

eDiff-I είναι α επόμενης γενιάς τεχνητή νοημοσύνη εργαλείο δημιουργίας περιεχομένου που παρέχει πρωτοφανή κείμενο σε εικόνα σύνθεση, γρήγορη μεταφορά στυλ και διαισθητική ζωγραφική με λέξεις. Ως μοντέλο διάχυσης για τη δημιουργία εικαστικών από κείμενο, το eDiff-I προτείνει την εκπαίδευση ενός συνόλου δικτύων εξουδετέρωσης θορύβου ειδικών, το καθένα εξειδικευμένο για ένα συγκεκριμένο διάστημα θορύβου, ως απάντηση στο εμπειρικό εύρημα ότι η συμπεριφορά των μοντέλων διάχυσης ποικίλλει σε διαφορετικές φάσεις δειγματοληψίας.

Η Nvidia ανακοίνωσε το eDiff-I: νέο γενετικό AI για σύνθεση κειμένου και εικόνας με άμεση μεταφορά στυλ

Οι ενσωματώσεις κειμένου T5, οι ενσωματώσεις εικόνας CLIP και οι ενσωματώσεις κειμένου CLIP παρέχουν τη βάση για την ιδέα eDiff-I. Αυτή η μεθοδολογία μπορεί να παράγει φωτορεαλιστικά γραφικά ως απάντηση σε οποιοδήποτε ερώτημα κειμένου.

Παρουσιάζει δύο πρόσθετες δυνατότητες εκτός από τη σύνθεση κειμένου σε εικόνα: (1) μεταφορά στυλ, που μας επιτρέπει να ελέγχουμε το στυλ του παραγόμενου δείγματος χρησιμοποιώντας μια εικόνα στυλ αναφοράς και (2) "Ζωγραφική με λέξεις", ένα εργαλείο που επιτρέπει στους χρήστες να δημιουργούν εικόνες ζωγραφίζοντας χάρτες τμηματοποίησης σε καμβά.

Pipeline
Pipeline

Ο αγωγός αποτελείται από έναν καταρράκτη τριών μοντέλων διάχυσης: ένα βασικό μοντέλο που μπορεί να δημιουργήσει δείγματα με ανάλυση 64×64 και δύο στοίβες υπερ-ανάλυσης που μπορούν σταδιακά να αναβαθμίσουν τις εικόνες σε αναλύσεις 256×256 και 1024×1024, αντίστοιχα. Τα μοντέλα υπολογίζουν το T5 XXL και την ενσωμάτωση κειμένου αφού λάβουν μια λεζάντα ως είσοδο. Αυτές οι ενσωματώσεις εικόνων μπορούν να χρησιμοποιηθούν ως διάνυσμα στυλ. Στη συνέχεια, τροφοδοτήστε αυτές τις ενσωματώσεις στον καταρράκτη μας μοντέλα διάχυσης, που παράγουν σταδιακά εικόνες με ανάλυση 1024 x 1024.

Η προσέγγιση eDiff-I έχει σταθερά ως αποτέλεσμα καλύτερη ποιότητα σύνθεσης σε σύγκριση με τους αλγόριθμους κειμένου σε εικόνα ανοιχτού κώδικα (Stable diffusion) και (DALL-E2).

Αποτελέσματα
Αποτελέσματα

Όταν χρησιμοποιούνται οι ενσωματώσεις εικόνας CLIP, η προσέγγιση eDiff-I διευκολύνει τη μεταφορά στυλ. Το eDiff-I εξάγει πρώτα το CLIP ενσωματώσεις εικόνας από μια εικόνα στυλ αναφοράς, η οποία μπορεί να χρησιμοποιηθεί ως διάνυσμα αναφοράς στυλ. Μια στυλιστική αναφορά φαίνεται στο παρακάτω αριστερό πλαίσιο. Τα αποτελέσματα όταν είναι ενεργοποιημένη η ρύθμιση στυλ εμφανίζονται στον κεντρικό πίνακα. Τα αποτελέσματα όταν η ρύθμιση στυλ είναι απενεργοποιημένη εμφανίζονται στον πίνακα στα δεξιά. Όταν εφαρμόζεται ρύθμιση στυλ, το μοντέλο eDiff-I δημιουργεί εξόδους που ανταποκρίνονται και στο στυλ της λεζάντας εισαγωγής. Όταν η ρύθμιση στυλ είναι απενεργοποιημένη, παράγονται φωτογραφίες με φυσική εμφάνιση.

Μεταφορά στυλ
Μεταφορά στυλ

Επιλέγοντας φράσεις και γράφοντάς τες στην εικόνα, οι χρήστες της μεθόδου eDiff-I μπορούν να αλλάξουν την τοποθέτηση των πραγμάτων που αναφέρονται στο μήνυμα κειμένου. Μετά από αυτό, το μοντέλο χρησιμοποιεί το προτροπή και τους χάρτες για τη δημιουργία εικόνων που είναι συμβατά τόσο με τη λεζάντα όσο και με τον χάρτη εισόδου.

Διαβάστε σχετικά άρθρα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα

Οι ιδρυτές του πορτοφολιού Samourai κατηγορούνται για διευκόλυνση $2 δις σε προσφορές Darknet

Η σύλληψη των ιδρυτών του Samourai Wallet αντιπροσωπεύει μια αξιοσημείωτη οπισθοδρόμηση για τον κλάδο, υπογραμμίζοντας την επίμονη ...

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
Business Αναφορά ειδήσεων Τεχνολογία
Η Pantera Capital επενδύει στην TON Blockchain, εκφράζει εμπιστοσύνη στο δυναμικό του Telegram να διευρύνει την προσβασιμότητα κρυπτογράφησης
2 Μαΐου 2024
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
Business Αναφορά ειδήσεων Τεχνολογία
Η Mitosis συγκεντρώνει 7 εκατομμύρια δολάρια σε χρηματοδότηση από την Amber Group και την Foresight Ventures για να προωθήσει το αρθρωτό πρωτόκολλο ρευστότητας της
2 Μαΐου 2024
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
Business Αναφορά ειδήσεων Τεχνολογία
Η Galxe συνεργάζεται με το Jambo για να επεκτείνει την παγκόσμια προσβασιμότητα Web3
2 Μαΐου 2024
Ο Med-Gemini της Google είναι έτοιμος να δώσει το προβάδισμα GPT-4 Με τις Ανώτερες Επιδόσεις του στην Υγεία
AI Wiki Νέα λογισμικό Τεχνολογία
Ο Med-Gemini της Google είναι έτοιμος να δώσει το προβάδισμα GPT-4 Με τις Ανώτερες Επιδόσεις του στην Υγεία
2 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.