OpenFlamingo: Ένα νέο πλαίσιο εικόνας σε κείμενο ανοιχτού κώδικα από το Meta AI και το LAION
Εν συντομία
Το OpenFlamingo είναι μια έκδοση ανοιχτού κώδικα του μοντέλου Flamingo της DeepMind, χτισμένη στην κορυφή του LLaMA μεγάλο γλωσσικό μοντέλο.
Οι προγραμματιστές ελπίζουν να δημιουργήσουν ένα πολυτροπικό σύστημα που θα μπορεί να χειριστεί τις προκλήσεις της γλώσσας οράματος και ίσα GPT-4Η δύναμη και η προσαρμοστικότητα του στο χειρισμό της εισαγωγής οπτικών και κειμένου.
Η έκδοση ανοιχτού κώδικα του μοντέλου Flamingo της DeepMind, OpenFlamingo, μόλις κυκλοφόρησε. Το OpenFlamingo είναι ουσιαστικά ένα πλαίσιο που επιτρέπει την εκπαίδευση και την αξιολόγηση σημαντικών πολυτροπικών μοντέλων (LMM). Το OpenFlamingo είναι χτισμένο στην κορυφή του LLaMA μοντέλο μεγάλης γλώσσας που αναπτύχθηκε από τη Meta AI.
Διαβάστε περισσότερα: Πώς να το χρησιμοποιήσετε: Midjourney Δωρεάν για πάντα: 5 απλά βήματα |
Οι συνεισφορές των προγραμματιστών σε αυτήν την πρώτη έκδοση είναι οι εξής:
- Ένα αρκετά μεγάλο πολυτροπικό σύνολο δεδομένων που συνδυάζει κείμενο και οπτικές ακολουθίες.
- Ένα σημείο αναφοράς για την αξιολόγηση της μάθησης εντός του πλαισίου για δραστηριότητες που περιλαμβάνουν το όραμα και τη γλώσσα.
- Μια προκαταρκτική εκδοχή μας LLaMA-Μοντέλο OpenFlamingo-9B.
Μέσω του OpenFlamingo, οι προγραμματιστές ελπίζουν να δημιουργήσουν ένα πολυτροπικό σύστημα που μπορεί να χειριστεί μια ποικιλία προκλήσεων γλώσσας όρασης. Απώτερος στόχος είναι η ισοπαλία GPT-4Η δύναμη και η προσαρμοστικότητα του στο χειρισμό της εισαγωγής οπτικών και κειμένου. Οι προγραμματιστές αναπτύσσουν μια έκδοση ανοιχτού κώδικα του μοντέλου Flamingo της DeepMind, ένα LMM ικανό να επεξεργάζεται και να συλλογίζει εικόνες, βίντεο και κείμενο, προκειμένου να επιτύχει αυτόν τον στόχο. Οι προγραμματιστές είναι αφοσιωμένοι στην ανάπτυξη μοντέλων αποκλειστικά ανοιχτού κώδικα, επειδή πιστεύουν ότι η διαφάνεια είναι ζωτικής σημασίας για την προώθηση της συνεργασίας, την επιτάχυνση της ανάπτυξης και τον εκδημοκρατισμό της πρόσβασης σε LMM αιχμής.
Παρέχουν το αρχικό σημείο ελέγχου του μοντέλου OpenFlamingo-9B. Αν και το μοντέλο δεν έχει ακόμη βελτιστοποιηθεί πλήρως, δείχνει την υπόσχεση του έργου. Οι προγραμματιστές μπορούν να εκπαιδεύσουν καλύτερα LMM συνεργαζόμενοι και λαμβάνοντας σχόλια από την κοινότητα. Καλούν το κοινό να δώσει στοιχεία και να προσθέσει στο αποθετήριο προκειμένου να συμμετάσχει στη διαδικασία ανάπτυξης.
Η υλοποίηση μοιάζει πολύ με αυτή του Flamingo. Τα μοντέλα Flamingo πρέπει να εκπαιδεύονται σε μεγάλης κλίμακας σύνολα δεδομένων ιστού με παρεμβαλλόμενο κείμενο και γραφικών για να τους εξοπλίσει με δεξιότητες μάθησης λίγων βολών εντός του πλαισίου. Η ίδια αρχιτεκτονική που προτάθηκε στην αρχική μελέτη Flamingo (Perceiver resamplers, cross-attention layers) εφαρμόζεται στο OpenFlamingo. Όμως, καθώς τα δεδομένα εκπαίδευσης του Flamingo δεν είναι προσβάσιμα στο ευρύ κοινό, οι προγραμματιστές χρησιμοποιούν σύνολα δεδομένων ανοιχτού κώδικα για να εκπαιδεύσουν μοντέλα. Το πρόσφατα δημοσιευμένο σημείο ελέγχου OpenFlamingo-9B εκπαιδεύτηκε ειδικά σε 10 εκατομμύρια δείγματα από το LAION-2B και 5 εκατομμύρια δείγματα από το νέο σύνολο δεδομένων Multimodal C4.
Οι προγραμματιστές περιλαμβάνουν επίσης ένα σημείο ελέγχου από το ημιτελές LMM OpenFlamingo-9B, το οποίο βασίζεται σε LLaMA 7B και CLIP ViT/L-14, ως μέρος της κυκλοφορίας. Παρόλο που αυτή η ιδέα εξακολουθεί να αναπτύσσεται, η κοινότητα μπορεί ήδη να επωφεληθεί πολύ από αυτήν.
Για να ξεκινήσετε, δείτε το GitHub πηγή και διαδήλωση.
Διαβάστε περισσότερα για το AI:
Αποποίηση ευθυνών
Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.
Σχετικά με το Συγγραφέας
Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.
Περισσότερα άρθραΟ Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου.