Το DALL-E 3 Release Ενισχύεται OpenAI's Influence, Leaving Midjourney και Stable Diffusion Πίσω
Εν συντομία
Το DALL-E 3 έχει ρυθμιστεί να ενσωματωθεί απρόσκοπτα με GPT-4, ειδικά προσαρμοσμένο για ChatGPT+ συνδρομητές.
Το DALL-E 3 απέχει από την αναδημιουργία εικόνων δημοσίων προσώπων όταν αναφέρονται ρητά τα ονόματά τους.
Το χρονοδιάγραμμα για την πρόσβαση στο DALL-E 3 έχει οριστεί για τον Οκτώβριο.
OpenAI αποκάλυψε την τελευταία της δημιουργία: DALL-E3. Σε αντίθεση με τους προκατόχους του, το DALL-E 3 εστιάζει στη βελτίωση των μικροσκοπικών στοιχείων, αντιμετωπίζοντας ζητήματα όπως τα γράμματα και οι περίπλοκες λεπτομέρειες του σώματος, όπως τα δάχτυλα. Το αποτέλεσμα? Μια σειρά από αισθητικά ευχάριστες εικόνες χωρίς την ανάγκη περίπλοκων προτροπών ή εναλλακτικών λύσεων.
Είναι σημαντικό να σημειωθεί ότι αυτή η έκδοση δεν συνοδεύεται από ένα ολοκληρωμένο σύνολο λεπτομερειών εφαρμογής, άρθρων ή API. Αντίθετα, το DALL-E 3 έχει ρυθμιστεί να ενσωματωθεί απρόσκοπτα GPT-4, ειδικά προσαρμοσμένο για ChatGPT+ συνδρομητές.
Αυτή η εξέλιξη μπορεί να μην είναι μια σεισμική αλλαγή στο τοπίο της τεχνητής νοημοσύνης, αλλά μάλλον ένα βήμα προς τα εμπρός στη συνεργασία μεταξύ μοντέλων. Πολλοί προσδοκούν ότι το επόμενο Stable Diffusion μοντέλο θα προσφέρει ακόμη μεγαλύτερη πολυπλοκότητα και καλλιτεχνική έλξη.
Για να το θέσω στο πλαίσιο, OpenAIΤο ταξίδι του μέσω της δημιουργίας εικόνων AI ήταν αρκετά δύσκολο:
- 2021: Το DALL-E 1, ένα μοντέλο παραμέτρων 12 δισεκατομμυρίων, παρουσιάστηκε με περιορισμένες πληροφορίες.
- 2021: Το GLIDE, ένα μοντέλο παραμέτρων 2 δισεκατομμυρίων, παρουσιάστηκε μαζί με μοντέλα παραμέτρων ανοιχτού κώδικα 300 εκατομμυρίων.
- 2022: Το DALL-E 2 έφτασε, με 2 δισεκατομμύρια παραμέτρους, συνοδευόμενο από χαρτί unCLIP και API.
- 2023: Το DALL-E 3 μπήκε και ενώ οι λεπτομέρειες μπορεί να είναι κάπως κρυπτικές, ένα πράγμα είναι σαφές - θα ενσωματωθεί με GPT-4 για ChatGPT+ συνδρομητές.
Προς το παρόν, τα γραφικά του DALL-E 3 παραμένουν κάπως σπάνια. Δεν υπάρχει βάση κωδικών, ανάρτηση ιστολογίου ή λεπτομερής σύγκριση με το state-of-the-art (SOTA). OpenAI φαίνεται να κρατά τα χαρτιά τους κοντά στο στήθος τους.
Το μοντέλο διαφημίζεται ότι κατέχει μια βαθύτερη κατανόηση των αποχρώσεων και των λεπτομερειών σε σύγκριση με τους προκατόχους του. Αυτό σημαίνει ότι η μετάφραση των δημιουργικών σας εννοιών σε εικόνες υψηλής ακρίβειας αναμένεται να είναι μια πιο ομαλή διαδικασία.
Μια ενδιαφέρουσα υπόσχεση του DALL-E 3 είναι η ενσωμάτωσή του με ChatGPT. Αυτό σημαίνει ότι οι χρήστες δεν θα χρειαστεί να αντιμετωπίσουν τη δημιουργία περίπλοκων προτροπών. μια σύντομη περιγραφή θα πρέπει να αρκεί, με ChatGPT δημιουργώντας επιδέξια λεπτομερείς προτροπές για λογαριασμό σας.
OpenAI έχει επίσης τονίσει τη σημασία του πλαισίου σε μακροχρόνιες προτροπές. Το DALL-E 3 έχει σχεδιαστεί για να αγκαλιάζει τον βερμπαλισμό, καθιστώντας το πιο προσαρμοσμένο στο πλαίσιο που περιγράφεται σε εκτενείς προτροπές.
Ωστόσο, όπως με κάθε νέο μοντέλο AI, υπάρχει ένα στοιχείο του άγνωστου. Ενώ οι αρχικές αναλαμπές φαίνονται πολλά υποσχόμενες, η αληθινή λυδία λίθος θα έρθει με εκτεταμένη χρήση. Παραμένουν ερωτήματα σχετικά με την αποτελεσματικότητά του και την ταχύτητα λειτουργίας του.
Είναι πιθανό ότι το DALL-E 3 θα είναι μια διαδικασία διάχυσης πολλαπλών σταδίων, με GPT-4 χρησιμεύει ως κωδικοποιητής κειμένου. Η περίπλοκη μηχανική αυτής της εγκατάστασης μπορεί να παραμείνει τυλιγμένη σε μυστικότητα.
Το χρονοδιάγραμμα για την πρόσβαση στο DALL-E 3 έχει οριστεί για τον Οκτώβριο, αρχικά για ChatGPT Συν και ChatGPT Επιχειρηματικός χρήστηςs, με δυνατότητα ευρύτερης πρόσβασης για τους ερευνητές στη συνέχεια.
Σχετικά:: OpenAIΟ Άλτμαν στη Γερουσία των ΗΠΑ για να συζητήσει τους κινδύνους της τεχνητής νοημοσύνης |
Αποχρώσεις και Λογοκρισία του DALL-E 3
Τα κύρια σημεία εστίασης της ανάπτυξης του DALL-E 3 ήταν η σχολαστική διαδικασία περιορισμού των δυνατοτήτων του. Αυτό περιλάμβανε αυστηρή ευθυγράμμιση και φίλτρα που είχαν σχεδιαστεί για να αποκλείουν συγκεκριμένους τύπους περιεχομένου. Για παράδειγμα, το μοντέλο αρνείται κατηγορηματικά να δημιουργήσει εικόνες διάσημων προσωπικοτήτων, να αντιγράψει έργα τέχνης στο στυλ διάσημων καλλιτεχνών ή να δημιουργήσει οποιοδήποτε περιεχόμενο που κρίνεται μη ασφαλές από OpenAIτα απαιτητικά πρότυπα του. Αυτή η στρατηγική προσέγγιση δεν αφορά μόνο περιορισμούς. είναι ένα προληπτικό μέτρο που στοχεύει στην προστασία της εταιρείας από πιθανές νομικές εμπλοκές.
Ωστόσο, πέρα από αυτά τα φίλτρα και τις ευθυγραμμίσεις, μερικές ενδιαφέρουσες παρατηρήσεις έρχονται στο φως. Το DALL-E 3 φαίνεται να παρουσιάζει κάποια αδυναμία όσον αφορά τη δημιουργία φωτορεαλιστικού περιεχομένου. Αντί να παράγει εικόνες που μιμούνται άψογα πραγματικές φωτογραφίες, η έξοδος φέρει μια ξεχωριστή στυλιζαρισμένη ποιότητα. Αυτές οι εικόνες που έχουν δημιουργηθεί με τεχνητή νοημοσύνη αποπνέουν μια σχεδόν αποδομένη και ελαφρώς πλαστική εμφάνιση. Ακόμη και όταν σας ζητηθεί ρητά η λέξη «φωτογραφία», το αποτέλεσμα παραμένει εδραιωμένο στη χαρακτηριστική του μορφοποίηση.
Αξίζει να σημειωθεί ότι παρά αυτές τις ιδιοσυγκρασίες, το DALL-E 3 προσφέρει μια γεύση από αξιοσημείωτες δυνατότητες. Μεταξύ των δημιουργιών του, ορισμένες περιπτώσεις παρουσιάζουν εντυπωσιακή ομοιότητα με φωτογραφίες. Λάβετε υπόψη ότι ο προσομοιωμένος ρεαλισμός αυτών των εικόνων δεν ευθυγραμμίζεται απαραίτητα με το πώς θα εμφανιζόταν μια γνήσια φωτογραφία του ίδιου θέματος, ειδικά αν βυθιστεί κάτω από το νερό.
DALL-E 3 Λειτουργίες και λεπτομέρειες
Ας αφιερώσουμε λίγο χρόνο για να κοιτάξουμε τα pixel και να διαβάσουμε ανάμεσα στις γραμμές για να καταλάβουμε τι πραγματικά προσφέρει αυτό το νέο μοντέλο.
Η Τέχνη του Στυλιζαρίσματος: Ρίχνοντας μια ματιά OpenAIτου λογαριασμού στο Instagram, θα παρατηρήσετε μια πληθώρα έργων τέχνης που χαρακτηρίζονται από εξαιρετικό στυλιζάρισμα. Ενώ υπάρχει μια εντυπωσιακή σειρά από αφηρημένες συνθέσεις και σχέδια, το μοντέλο φαίνεται να αποφεύγει την παραγωγή φωτορεαλιστικού περιεχομένου. Εδώ δίνεται έμφαση στην αισθητική και τη δημιουργικότητα, όχι στη μίμηση της πραγματικότητας.
Καλλιτεχνικοί Περιορισμοί: Το DALL-E 3 ακολουθεί διαφορετικό δρόμο από τον προκάτοχό του. Αρνείται κατηγορηματικά να δημιουργήσει εικόνες στο στυλ των ζωντανών καλλιτεχνών, μια έντονη απόκλιση από το DALL-E 2, που θα μπορούσε να μιμηθεί τα στυλ ορισμένων καλλιτεχνών. Αυτό μπορεί να προκαλέσει ανησυχία στη δημιουργική κοινότητα, παρόμοια με τη χλιαρή υποδοχή του Stable Diffusion 2.0.
Ενδυνάμωση Καλλιτεχνών: Σε μια κίνηση σεβασμού των δικαιωμάτων των καλλιτεχνών, OpenAI επιτρέπει στους καλλιτέχνες να αποκλείουν τη δουλειά τους από μελλοντικές εκδόσεις DALL-E. Υποβάλλοντας μια εικόνα στην οποία κατέχουν τα δικαιώματα, οι καλλιτέχνες μπορούν να ζητήσουν τον αποκλεισμό της από την παραγωγή του μοντέλου. Οι μελλοντικές επαναλήψεις του DALL-E θα αποφύγουν τη δημιουργία περιεχομένου που μοιάζει με αυτό στυλ του καλλιτέχνη.
Ασφάλεια και Λογοκρισία: OpenAIΗ παράνοια του για την ασφάλεια είναι έκδηλη. Συνεργάστηκαν με εξωτερικές «κόκκινες ομάδες» για να δοκιμάσουν την ασφάλεια του μοντέλου και χρησιμοποίησαν ταξινομητές εισόδου για να διδάξουν στο μοντέλο να αγνοεί συγκεκριμένες λέξεις που θα μπορούσαν να οδηγήσουν σε ρητό ή επιβλαβές περιεχόμενο. Το DALL-E 3 απέχει από την αναδημιουργία εικόνων του δημόσια πρόσωπα όταν αναφέρονται ρητά τα ονόματά τους. Το εάν οι διασημότητες εμπίπτουν σε αυτήν την κατηγορία παραμένει αβέβαιο, επηρεάζοντας ενδεχομένως την ποιότητα των προσώπων που δημιουργούνται.
Υδατογράφημα και παρακολούθηση: Υπάρχει μια υπόδειξη για την ενσωμάτωση ετικετών για την παρακολούθηση "εικόνων που δημιουργούνται από AI", υποδεικνύοντας μια κίνηση προς την καλύτερη παρακολούθηση και πιθανή υδατοσήμανση περιεχομένου που δημιουργείται.
Το κείμενο και τα χέρια βελτιώθηκαν: OpenAI βελτίωσε τη δημιουργία κειμένου και την απόδοση με το χέρι, μια κοινή αξίωση μεταξύ των ανταγωνιστών. Η πραγματική δοκιμή έγκειται στην πραγματική απόδοση πέρα από τα επιλεγμένα παραδείγματα.
Χωρική Κατανόηση: Το DALL-E 3 υπερέχει στην κατανόηση των χωρικών σχέσεων που περιγράφονται στις προτροπές. Αυτό ενισχύει την ικανότητα του μοντέλου να κατασκευάζει σύνθετες γωνίες και συνθέσεις, αν και οι χρήστες περιμένουν πιο συγκεκριμένα στοιχεία αυτής της υπόσχεσης.
Η δύναμη των προτροπών: Η ουσία του DALL-E3 έγκειται στις άμεσες δυνατότητες και την ενσωμάτωσή του με ChatGPT. Υπόσχεται αυτοματισμό, ταχύτητα και απλοποίηση της άμεσης σχεδίασης. Η τάση εδώ είναι προς chatGPT δημιουργία προτροπών, μεταφράζοντας ασαφείς ιδέες ή στοιχειώδεις προτροπές σε εύγλωττες. Η βελτιωμένη κατανόηση των συμφραζομένων του DALL-E 3 βελτιστοποιεί τη διαδικασία, επιτρέποντας στους χρήστες να εστιάζουν στην πρόθεση αντί για τη λεκτικότητα.
Αχαρτογράφητα εδάφη: Σημαντικά απουσιάζουν από τη συζήτηση πτυχές όπως το inpainting, το outpainting, το generative fill και το 3D modeling. Η απουσία αυτών των χαρακτηριστικών θα μπορούσε να είναι περιορισμός, ειδικά για χρήστες που είναι συνηθισμένοι σε πιο ευέλικτα μοντέλα.
Λεπτομέρειες πρόσβασης: Το DALL-E 3 έχει ρυθμιστεί να γίνει διαθέσιμο σε ChatGPT Πελάτες Plus και Enterprise στις αρχές Οκτωβρίου. Ωστόσο, οι λεπτομέρειες σχετικά με την κατανομή των πιστώσεων για ChatGPT Επιπλέον, οι χρήστες και το σχετικό κόστος παραμένουν ασαφή. Η πρόσβαση θα παρέχεται μέσω του API και του OpenAI Η πλατφόρμα Labs «αργότερα το φθινόπωρο».
Ικανότητα ενσωμάτωσης: Το DALL-E πρόκειται να ενσωματωθεί απρόσκοπτα σε προϊόντα συνεργατών και Microsoft. Περιμένετε να παρακολουθήσετε τη δημιουργία παρουσιάσεων, εικονογραφήσεων, σχεδίων, λογότυπων, όλα στο πλαίσιο και ενισχυμένα με τη βοήθεια από ChatGPT. Αυτή η ενσωμάτωση πρόκειται να γίνει mainstream, θέτοντας μια σημαντική πρόκληση για ανταγωνιστές όπως Η Google με τον Bard της και Ιδεόγραμμα.
Η σύγκλιση του LLM και του οπτικού περιεχομένου: Η πιο ενδιαφέρουσα πτυχή έγκειται στη σύγκλιση των μοντέλων μεγάλων γλωσσών (LLM) και μοντέλων δημιουργίας οπτικού περιεχομένου. Σηματοδοτεί μια στροφή από τη σύνθετη άμεση μηχανική στην έκφραση ιδεών σε μια πιο προσιτή γλώσσα. Η τεχνητή νοημοσύνη θα συγκεντρώσει το πλαίσιο και τις ιδέες από αυτές τις εκφράσεις, προσφέροντας δημιουργικές δυνατότητες στις οποίες είναι δύσκολο να αντισταθείς.
DALL-E 3: Γίνετε νέος ηγέτης στη γενιά εικόνων AI
OpenAIαπόφαση του να ενσωματώσει το DALL-E 3 στο ChatGPT το οικοσύστημα είναι μια στρατηγική κίνηση. Αυτή η ενοποίηση παρέχει στο DALL-E 3 πρόσβαση σε μια τεράστια βάση δεδομένων χρηστών 100 εκατομμυρίων ενεργών χρηστών. Αυτό το βήμα ενισχύει σημαντικά την προσβασιμότητα του DALL-E 3 και έχει τη δυνατότητα να εκτοξεύσει τη δημοτικότητά του.
Επί του παρόντος, Midjourney και Stable Diffusion καυχηθείτε 15 εκατομμύρια εγγεγραμμένους χρήστες. Ωστόσο, με αυτήν την ενοποίηση, το DALL-E 3 πρόκειται να αποκτήσει πρόσβαση σε μια βάση χρηστών δέκα φορές μεγαλύτερη—100 εκατομμύρια χρήστες. Αυτό κάνει το ChatGPT Συν συνδρομή σχεδιάστε ακόμη πιο ελκυστικό, καθώς προσφέρει πρόσβαση σε ένα chatbot, αναλυτικά εργαλεία και δημιουργία εικόνων, όλα σε προσιτή τιμή.
Η ενοποίηση δεν είναι μόνο πλεονεκτική για τους υπάρχοντες χρήστες, αλλά χρησιμεύει επίσης ως ισχυρός μαγνήτης για νέους χρήστες. Διευρύνει το OpenAI την απήχηση και τη δημοτικότητα του οικοσυστήματος, προσελκύοντας άτομα που αναζητούν λύσεις περιεχομένου που δημιουργείται από την τεχνητή νοημοσύνη.
Αυτή η στρατηγική κίνηση πρόκειται να ενισχυθεί OpenAIτα έσοδα και άλλες βασικές μετρήσεις. Οι επενδυτές της εταιρείας πιθανότατα θα δουν αυτή την εξέλιξη θετικά, ειδικά υπό το φως μιας πρόσφατης Μείωση 20% στην κίνηση κατά τη διάρκεια του καλοκαιριού.
Διαβάστε περισσότερα σχετικά θέματα:
Αποποίηση Eυθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.