Αναφορά ειδήσεων Τεχνολογία
Σεπτέμβριος 19, 2023

Το μοντέλο Würstchen V2 κερδίζει Stable Diffusion XL με εντυπωσιακή ταχύτητα για τη δημιουργία εικόνων υψηλής ανάλυσης

Ένα πρόσφατο tweet από τον συγγραφέα ενός άρθρου με τίτλο «Würstchen» (γερμανικά σημαίνει «Λουκάνικο») έχει τραβήξει την προσοχή τόσο των ενθουσιωδών όσο και των ειδικών. Το tweet μοιράστηκε τα συναρπαστικά αποτελέσματα της δημιουργίας εικόνων χρησιμοποιώντας το νέο μοντέλο Würstchen V2.

Το μοντέλο Würstchen V2 κερδίζει Stable Diffusion XL με εντυπωσιακή ταχύτητα για τη δημιουργία εικόνων υψηλής ανάλυσης
Σχετικά:: Midjourney 5.2 και Stable Diffusion Ενημερώσεις SDXL 0.9 για Δημιουργική Δημιουργία Κειμένου σε Εικόνα

Το Würstchen είναι γρήγορο και αποτελεσματικό, δημιουργώντας εικόνες πιο γρήγορα από μοντέλα όπως Stable Diffusion XL ενώ χρησιμοποιεί λιγότερη μνήμη. Έχει επίσης μειωμένο κόστος εκπαίδευσης, με το Würstchen v1 να απαιτεί μόνο 9,000 ώρες εκπαίδευσης GPU σε αναλύσεις 512×512, σε σύγκριση με 150,000 ώρες GPU που δαπανώνται σε Stable Diffusion 1.4. Αυτή η μείωση του κόστους κατά 16 φορές όχι μόνο ωφελεί τους ερευνητές που διεξάγουν νέα πειράματα, αλλά ανοίγει επίσης την πόρτα σε περισσότερους οργανισμούς να εκπαιδεύσουν τέτοια μοντέλα. Το Würstchen v2 χρησιμοποίησε 24,602 ώρες GPU, καθιστώντας το 6 φορές φθηνότερο από το SD1.4, το οποίο εκπαιδεύτηκε μόνο στα 512×512.

Ένα ξεχωριστό χαρακτηριστικό που τράβηξε αμέσως το βλέμμα της κοινότητας AI είναι η εντυπωσιακή ταχύτητα του Würstchen V2. Σύμφωνα με τον συγγραφέα, η δημιουργία τεσσάρων εικόνων 1024×2048 χρησιμοποιώντας αυτό το μοντέλο διαρκεί μόλις 7 δευτερόλεπτα. Για να το θέσουμε σε προοπτική, το μοντέλο SDXL θα απαιτούσε σχετικά αργά 40 δευτερόλεπτα για να επιτύχει την ίδια εργασία.

Το Würstchen V1, που παρουσιάστηκε προηγουμένως, μοιράζεται τα θεμέλιά του με το SDXL ως λανθάνον Μοντέλο διάχυσης αλλά ενσωματώνει μια ταχύτερη αρχιτεκτονική Unet. Καθώς η κοινότητα αναμένει με ανυπομονησία περισσότερες λεπτομέρειες σχετικά με την αρχιτεκτονική του Würstchen V2, η βελτιωμένη ταχύτητα από μόνη της το χαρακτηρίζει ως μια αξιοσημείωτη εξέλιξη.

Το Würstchen V2 είναι ένα μοντέλο διάχυσης που λειτουργεί σε έναν εξαιρετικά συμπιεσμένο λανθάνοντα χώρο εικόνων, μειώνοντας το υπολογιστικό κόστος για εκπαίδευση και εξαγωγή συμπερασμάτων κατά τάξεις μεγέθους. Χρησιμοποιεί μια νέα σχεδίαση που επιτυγχάνει χωρική συμπίεση 42x, ένα κατόρθωμα που δεν είχε ξαναδεί. Το Würstchen χρησιμοποιεί συμπίεση δύο σταδίων, το Στάδιο Α και το Στάδιο Β, που αποκωδικοποιούν τις συμπιεσμένες εικόνες πίσω στο χώρο των pixel. Ένα τρίτο μοντέλο, το Στάδιο C, μαθαίνεται στον εξαιρετικά συμπιεσμένο λανθάνοντα χώρο, που απαιτεί κλάσματα του υπολογισμού που χρησιμοποιούνται για τα τρέχοντα μοντέλα κορυφαίας απόδοσης, ενώ επιτρέπει φθηνότερα και ταχύτερα συμπεράσματα.

Το Würstchen V2 περιλαμβάνει δύο στάδια διάχυσης:

  • Στάδιο Α: Αυτό το στάδιο περιλαμβάνει διάχυση υπό όρους κειμένου και μπορεί να υπερηφανεύεται για το εκπληκτικό 1 δισεκατομμύριο παραμέτρους. Η επιτάχυνση εδώ επιτυγχάνεται μέσω τεχνικών εξαιρετικά υψηλής συμπίεσης. Σημειωτέον, αντί για το κρυφό μέγεθος κωδικού των 128x128x4, όπως φαίνεται στην SDXL, το Würstchen V2 αρχικά λειτουργεί σε ανάλυση 24x24x16. Αυτό σημαίνει λιγότερα pixel αλλά περισσότερα κανάλια, με αποτέλεσμα σημαντική αύξηση της ταχύτητας.
  • Στάδιο Β: Αυτό είναι ένα μοντέλο διάχυσης εξοπλισμένο με 600 εκατομμύρια παραμέτρους, υπεύθυνες για την αποσυμπίεση της εικόνας από 24×24 σε ανάλυση 128×128.

Η ολοκλήρωση της διαδικασίας είναι ένας αποκωδικοποιητής με 20 εκατομμύρια παραμέτρους που μετατρέπει τον κρυφό κώδικα σε μια εικόνα απόδοσης.

Το πρακτικό όφελος που ξεχωρίζει αμέσως είναι η αξιοσημείωτη ταχύτητα του Würstchen V2. Λειτουργεί με ταχύτητα 2-2.5 φορές μεγαλύτερη από την SDXL, μια αξιοσημείωτη πρόοδος στον τομέα της Δημιουργία εικόνων AI.

Όπως συμβαίνει με κάθε τεχνολογική καινοτομία, ενδέχεται να υπάρξουν συμβιβασμούς. Όσον αφορά την ποιότητα της εικόνας, ορισμένοι ειδικοί προτείνουν μια μικρή απώλεια, αν και αναμένεται ακόμη μια ολοκληρωμένη και ειλικρινής σύγκριση για να παρασχεθούν συγκεκριμένα στοιχεία.

Παραδείγματα δημιουργίας κειμένου σε εικόνα είναι τα παρακάτω:

Διαβάστε περισσότερα σχετικά θέματα:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
Η στροφή του Ντόναλντ Τραμπ στην κρυπτογράφηση: Από αντίπαλος σε συνήγορος και τι σημαίνει για την αγορά κρυπτονομισμάτων των ΗΠΑ
Business αγορές Ιστορίες και κριτικές Τεχνολογία
Η στροφή του Ντόναλντ Τραμπ στην κρυπτογράφηση: Από αντίπαλος σε συνήγορος και τι σημαίνει για την αγορά κρυπτονομισμάτων των ΗΠΑ
10 Μαΐου 2024
Layer3 για κυκλοφορία L3 Token αυτό το καλοκαίρι, κατανέμοντας το 51% της συνολικής προσφοράς στην κοινότητα
αγορές Αναφορά ειδήσεων Τεχνολογία
Layer3 για κυκλοφορία L3 Token αυτό το καλοκαίρι, κατανέμοντας το 51% της συνολικής προσφοράς στην κοινότητα
10 Μαΐου 2024
Η τελική προειδοποίηση του Έντουαρντ Σνόουντεν προς τους προγραμματιστές Bitcoin: «Κάντε το απόρρητο προτεραιότητα σε επίπεδο πρωτοκόλλου ή κινδυνεύετε να το χάσετε
αγορές Ασφάλεια Wiki λογισμικό Ιστορίες και κριτικές Τεχνολογία
Η τελική προειδοποίηση του Έντουαρντ Σνόουντεν προς τους προγραμματιστές Bitcoin: «Κάντε το απόρρητο προτεραιότητα σε επίπεδο πρωτοκόλλου ή κινδυνεύετε να το χάσετε
10 Μαΐου 2024
Το Optimism-Powered Ethereum Layer 2 Network Mint θα κυκλοφορήσει το Mainnet του στις 15 Μαΐου
Αναφορά ειδήσεων Τεχνολογία
Το Optimism-Powered Ethereum Layer 2 Network Mint θα κυκλοφορήσει το Mainnet του στις 15 Μαΐου
10 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.