Αναφορά ειδήσεων Τεχνολογία
Ιούνιος 12, 2023

Η Microsoft εισήγαγε το Multimodal Language Model Otter για οπτική κατανόηση που βασίζεται στο μαζικό σύνολο δεδομένων οπτικού κειμένου MIMIC-IT

Εν συντομία

Το Otter είναι ένα μοντέλο οπτικής γλώσσας (VLM) που βασίζεται στην πλατφόρμα OpenFlamingo, σχεδιασμένο να φέρει επανάσταση στην οπτική κατανόηση και να αλληλεπιδρά με οπτικό περιεχόμενο.

Βίδρα είναι ένα μοντέλο οπτικής γλώσσας αιχμής (VLM) που βασίζεται στο OpenFlamingo πλατφόρμα, και πρόκειται να βελτιώσει τον τρόπο που αλληλεπιδρούμε με το οπτικό περιεχόμενο. Ως μέρος του φιλόδοξου έργου Otter, η Microsoft έχει εισαγάγει ένα τεράστιο διδακτικό σύνολο δεδομένων οπτικού κειμένου που ονομάζεται MIMIC-IT. Αυτό το σύνολο δεδομένων περιέχει ένα εκπληκτικό 2.8 εκατομμύρια ζεύγη συνδεδεμένων πολυτροπικών οδηγιών με απαντήσεις, συμπεριλαμβανομένων 2.2 εκατομμυρίων μοναδικών οδηγιών που προέρχονται από εικόνες και βίντεο. Το σύνολο δεδομένων επιμελήθηκε σχολαστικά για την προσομοίωση φυσικών διαλόγων, καλύπτοντας σενάρια όπως περιγραφές εικόνων και βίντεο, συγκρίσεις εικόνων, απαντήσεις σε ερωτήσεις, κατανόηση σκηνής και πολλά άλλα. Αυτά τα υψηλής ποιότητας ζεύγη εντολών-απόκρισης δημιουργήθηκαν χρησιμοποιώντας το ισχυρό ChatGPT-0301 API, που αντιπροσωπεύει μια επένδυση περίπου 20 $.

Η Microsoft εισήγαγε το Multimodal Language Model Otter για οπτική κατανόηση που βασίζεται στο μαζικό σύνολο δεδομένων οπτικού κειμένου MIMIC-IT

Το σύνολο δεδομένων MIMIC-IT διαδραματίζει κρίσιμο ρόλο στην εκπαίδευση του μοντέλου Otter, το οποίο έχει σχεδιαστεί για να υπερέχει στην κατανόηση οπτικών σκηνών, συλλογισμών και λογικών συμπερασμάτων. Κάθε ζεύγος εντολών-απόκρισης στο σύνολο δεδομένων συνοδεύεται από πολυτροπικές πληροφορίες εντός του πλαισίου, δημιουργώντας πλαίσια συνομιλίας που εξουσιοδοτούν το μοντέλο να κατανοήσει τις αποχρώσεις της αντίληψης, του συλλογισμού και του σχεδιασμού. Για να κλιμακώσει τη διαδικασία σχολιασμού, η Microsoft χρησιμοποίησε έναν αυτόματο σχολιασμό που ονομάζεται Syphus, ο οποίος συνδυάζει την ανθρώπινη τεχνογνωσία με τις δυνατότητες GPT για να διασφαλιστεί η ποιότητα και η ποικιλομορφία του συνόλου δεδομένων.

Η Microsoft εισήγαγε το Multimodal Language Model Otter για οπτική κατανόηση που βασίζεται στο μαζικό σύνολο δεδομένων οπτικού κειμένου MIMIC-IT

Χρησιμοποιώντας το σύνολο δεδομένων MIMIC-IT, η Microsoft εκπαίδευσε το μοντέλο Otter, ένα VLM μεγάλης κλίμακας που βασίζεται στην πλατφόρμα OpenFlamingo. Μέσω εκτεταμένων αξιολογήσεων σχετικά με τα σημεία αναφοράς της γλώσσας όρασης, η Otter έχει επιδείξει αξιοσημείωτη ικανότητα στην αντίληψη πολλαπλών τρόπων, τη συλλογιστική και τη μάθηση εντός του πλαισίου. Οι ανθρώπινες αξιολογήσεις έχουν αποκαλύψει την ικανότητά του να ευθυγραμμίζεται αποτελεσματικά με τις προθέσεις του χρήστη, καθιστώντας το ένα ανεκτίμητο εργαλείο για την ερμηνεία και την εκτέλεση σύνθετων εργασιών που βασίζονται σε οδηγίες φυσικής γλώσσας.

Το Otter v0.2 έχει επεκτείνει τις δυνατότητές του για να υποστηρίζει εισόδους βίντεο, επιτρέποντάς του πλαίσια διαδικασίας και πολλές εικόνες ως παραδείγματα εντός του πλαισίου.

Η κυκλοφορία του συνόλου δεδομένων MIMIC-IT, μαζί με τη γραμμή συλλογής εντολών-απόκρισης, τα σημεία αναφοράς και το μοντέλο Otter, αντιπροσωπεύουν ένα σημαντικό ορόσημο στον τομέα της πολυτροπικής επεξεργασίας γλώσσας. Διαθέτοντας αυτούς τους πόρους σε ερευνητές και προγραμματιστές, η Microsoft στοχεύει στην προώθηση της καινοτομίας και της συνεργασίας, επιτρέποντας την ενσωμάτωση του Otter και του OpenFlamingo σε εξατομικευμένες αγωγούς εκπαίδευσης και συμπερασμάτων χρησιμοποιώντας τη δημοφιλή Αγκαλιάζοντας το πρόσωπο Πλαίσιο μετασχηματιστών.

Το σύνολο δεδομένων MIMIC-IT περιλαμβάνει ένα ευρύ φάσμα σεναρίων πραγματικής ζωής, ενδυναμώνοντας τα Vision-Language Models (VLM) να κατανοούν γενικές σκηνές, να αιτιολογούν το πλαίσιο και να διαφοροποιούν έξυπνα τις παρατηρήσεις. Αυτό ανοίγει δυνατότητες, όπως η ανάπτυξη εγωκεντρικών μοντέλων οπτικών βοηθών που μπορούν να απαντήσουν σε ερωτήσεις όπως: "Γεια, νομίζεις ότι άφησα τα κλειδιά μου στο τραπέζι;".

Το MIMIC-IT δεν περιορίζεται στην αγγλική γλώσσα. Υποστηρίζει επίσης πολλές γλώσσες, όπως κινέζικα, κορεάτικα, ιαπωνικά, γερμανικά, γαλλικά, ισπανικά και αραβικά. Αυτή η πολύγλωσση υποστήριξη δίνει τη δυνατότητα σε ένα μεγαλύτερο παγκόσμιο κοινό να επωφεληθεί από την ευκολία και τις εξελίξεις που επιφέρει η τεχνητή νοημοσύνη.

Για να εξασφαλιστεί η δημιουργία ζευγών εντολών-απόκρισης υψηλής ποιότητας, Microsoft εισήγαγε το Syphus, έναν αυτοματοποιημένο αγωγό που ενσωματώνει μηνύματα συστήματος, οπτικούς σχολιασμούς και παραδείγματα εντός του πλαισίου ως προτροπές ChatGPT. Αυτό διασφαλίζει την αξιοπιστία και την ακρίβεια των δημιουργούμενων ζευγών εντολής-απόκρισης σε πολλές γλώσσες.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταια νεα

Από το Ripple στο The Big Green DAO: Πώς τα έργα κρυπτονομισμάτων συμβάλλουν στη φιλανθρωπία

Ας εξερευνήσουμε πρωτοβουλίες που αξιοποιούν τις δυνατότητες των ψηφιακών νομισμάτων για φιλανθρωπικούς σκοπούς.

Μάθετε περισσότερα

AlphaFold 3, Med-Gemini και άλλοι: Ο τρόπος που η τεχνητή νοημοσύνη μεταμορφώνει την υγειονομική περίθαλψη το 2024

Η τεχνητή νοημοσύνη εκδηλώνεται με διάφορους τρόπους στην υγειονομική περίθαλψη, από την αποκάλυψη νέων γενετικών συσχετισμών έως την ενδυνάμωση ρομποτικών χειρουργικών συστημάτων...

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Διαβάστε Περισσότερα
Διάβασε περισσότερα
Τα κορυφαία 10 δωρεάν εργαλεία AI για δημιουργία περιεχομένου, επεξεργασία βίντεο και πολλά άλλα
AI Wiki Σύνοψη Εκπαίδευση Lifestyle λογισμικό Τεχνολογία
Τα κορυφαία 10 δωρεάν εργαλεία AI για δημιουργία περιεχομένου, επεξεργασία βίντεο και πολλά άλλα
14 Μαΐου 2024
Η Επιτροπή Κεφαλαιαγοράς του Χονγκ Κονγκ προειδοποιεί για απάτες Deepfake που στοχεύουν τη βιομηχανία κρυπτογράφησης: Επιπτώσεις για την ασφάλεια των επενδυτών
Lifestyle Ασφάλεια Wiki λογισμικό Ιστορίες και κριτικές Τεχνολογία
Η Επιτροπή Κεφαλαιαγοράς του Χονγκ Κονγκ προειδοποιεί για απάτες Deepfake που στοχεύουν τη βιομηχανία κρυπτογράφησης: Επιπτώσεις για την ασφάλεια των επενδυτών
14 Μαΐου 2024
Η Ripple και η Evmos συνεργάζονται για την ανάπτυξη XRP Ledger EVM Sidechain με την τεχνολογία EvmOS
Business Αναφορά ειδήσεων Τεχνολογία
Η Ripple και η Evmos συνεργάζονται για την ανάπτυξη XRP Ledger EVM Sidechain με την τεχνολογία EvmOS
14 Μαΐου 2024
Το 5ireChain ξεκινά με κίνητρα «Testnet Thunder: GA» για δοκιμές πίεσης δικτύου, προσκαλεί τους χρήστες να συμμετάσχουν για Airdrop Ανταμοιβές
Αναφορά ειδήσεων Τεχνολογία
Το 5ireChain ξεκινά με κίνητρα «Testnet Thunder: GA» για δοκιμές πίεσης δικτύου, προσκαλεί τους χρήστες να συμμετάσχουν για Airdrop Ανταμοιβές
14 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.