Αναφορά ειδήσεων Τεχνολογία
29 Μαΐου 2023

Η Google δίδαξε το AI Model Flamingo να γράφει περιγραφές για βίντεο YouTube

Εν συντομία

Το Flamingo λύνει το πρόβλημα της δυσεύρετης σύντομων βίντεο μέσω της αναζήτησης, δημιουργώντας αυτόματα περιγραφές.

Το Google DeepMind, το ερευνητικό εργαστήριο AI, έχει αναπτύχθηκε ένα οπτικό μοντέλο γλώσσας που ονομάζεται Flamingo, ικανό να γράφει περιγραφές για σύντομα βίντεο στο YouTube. Το πρόβλημα που αντιμετωπίζει το Flamingo είναι ότι τα σύντομα βίντεο είναι συχνά δύσκολο να εντοπιστούν μέσω αναζήτησης λόγω της έλλειψης απαραίτητων πληροφοριών στην περιγραφή. Το μοντέλο Flamingo λύνει αυτό το πρόβλημα δημιουργώντας αυτόματα κείμενα για εκατομμύρια σύντομα βίντεο κλιπ σε ιστότοπους φιλοξενίας βίντεο, τα οποία χρησιμοποιούνται "παρασκηνιακά" για να επιτρέψουν την εύκολη αναζήτηση. Αν και οι συντάκτες του βίντεο δεν βλέπουν τα μεταδεδομένα, βοηθά τους θεατές να βρουν και να περιηγηθούν στα shorts. Επί του παρόντος, το Flamingo εργάζεται σε νέα κλιπ και επεξεργάζεται παλαιότερα βίντεο που έχουν ανέβει στο YouTube εδώ και πολύ καιρό.

Η Google δίδαξε το AI Model Flamingo να γράφει περιγραφές για βίντεο YouTube
deepmind.com

Στο παρελθόν, η Google εισήγαγε έναν αλγόριθμο που επιτρέπει στους ανθρώπους να αναζητούν πληροφορίες μέσα στα βίντεο χρησιμοποιώντας τη γραμμή αναζήτησης. Πρόσφατα, η TwelveLabs συγκέντρωσε 12 εκατομμύρια δολάρια από επενδυτές για μια παρόμοια εξέλιξη. Αυτά τα εργαλεία δημιουργούν νέες ευκαιρίες για βίντεο δημιουργούς περιεχομένου για να αυξήσουν την εμβέλεια και την προβολή τους. Με τη μόχλευση της τεχνητής νοημοσύνης για τη βελτίωση και την απλοποίηση της διαδικασίας αναζήτησης και της ανακάλυψης περιεχομένου σύντομης μορφής, η DeepMind και παρόμοιες startups φέρνουν επανάσταση στο βίντεο υπηρεσίες ροής. Συμβάλλουν στην ανάπτυξη πιο έξυπνων και αποτελεσματικών τεχνολογιών αναζήτησης, καθιστώντας ακόμη πιο εύκολο για τους θεατές να βρίσκουν περιεχόμενο που τους ενδιαφέρει πραγματικά.

Η τεχνητή νοημοσύνη παίζει σημαντικό ρόλο στην αναβάθμιση των τεχνολογιών αναζήτησης. Αξιοποιώντας την τεχνητή νοημοσύνη, το μοντέλο Flamingo μπορεί να σαρώσει και να σειριοποιήσει το περιεχόμενο και να δημιουργήσει κείμενα που συνοψίζουν το περιεχόμενο για να βοηθήσουν τους χρήστες να πλοηγηθούν. Το μοντέλο Flamingo χρησιμοποιεί βαθιά νευρωνικά δίκτυα για να δημιουργήσει περιγραφές κειμένου ενός βίντεο κλιπ με βάση το ακουστικό και οπτικό περιεχόμενο του βίντεο. Μπορεί να συλλάβει τα ακουστικά και οπτικά στοιχεία του περιεχομένου σύντομης μορφής και να τα μετατρέψει σε μια σύνοψη που είναι εύκολο να αναζητήσουν και να έχουν πρόσβαση οι χρήστες.

Η χρήση της τεχνητής νοημοσύνης μπορεί να βοηθήσει στον εντοπισμό σημαντικών πληροφοριών για τους χρήστες, οι οποίες μπορεί να χαθούν στις μη αυτόματες προσπάθειες των δημιουργών κατά την προσθήκη περιγραφών. Η χρονοβόρα προσπάθεια για χειροκίνητη καταγραφή κάθε λεπτομέρειας δεν είναι πάντα πρακτική, ειδικά με τη συνεχή ροή περιεχομένου βίντεο σύντομης μορφής που ανεβάζεται σε πλατφόρμες όπως το YouTube. Αυτό μπορεί να οδηγήσει σε σύγχυση και απογοήτευση των χρηστών κατά την αναζήτηση συγκεκριμένου περιεχομένου σύντομης μορφής. Ωστόσο, με τη χρήση οπτικών μοντέλων γλώσσας, όπως το Flamingo, τα μεταδεδομένα μπορούν να δημιουργηθούν αυτόματα για να παρέχουν μια σύνοψη για εύκολη πρόσβαση, εξοικονομώντας έτσι χρόνο και καθιστώντας τη διαδικασία αναζήτησης πιο αποτελεσματική και ακριβή.

Το Flamingo θέτει νέα υπερσύγχρονα μοντέλα οπτικής γλώσσας για εργασίες ανοιχτού τύπου

Οι πιο σημαντικές λεπτομέρειες είναι η εισαγωγή του Flamingo, ενός μοντέλου οπτικής γλώσσας (VLM) που θέτει μια νέα κατάσταση της τέχνης στη μάθηση με λίγες λήψεις σε ένα ευρύ φάσμα πολυτροπικών εργασιών ανοιχτού τύπου. Το Flamingo είναι ένα ενιαίο οπτικό γλωσσικό μοντέλο (VLM) που ρεdefines μάθηση σε λίγες λήψεις σε ένα ευρύ φάσμα πολυτροπικών δραστηριοτήτων ανοιχτού τύπου. Λαμβάνει α έγκαιρη που αποτελείται από παρεμβαλλόμενες εικόνες, βίντεο και κείμενο ως είσοδο και έξοδο της σχετικής γλώσσας. Η οπτική διεπαφή και η διεπαφή κειμένου του Flamingo, όπως αυτά των μεγάλων γλωσσικών μοντέλων (LLM), μπορεί να οδηγήσει το μοντέλο προς την επίτευξη ενός πολυτροπικού στόχου. Στο μοντέλο μπορεί να τεθεί μια ερώτηση με μια νέα εικόνα ή βίντεο και στη συνέχεια να δημιουργήσει μια απάντηση, δίνοντας μερικά παραδείγματα ζευγών οπτικών εισόδων και αναμενόμενων απαντήσεων κειμένου που συντάχθηκαν στην προτροπή του Flamingo.

Το Flamingo είναι ένα οπτικό μοντέλο γλώσσας που συνδυάζει μεγάλα γλωσσικά μοντέλα με ισχυρές οπτικές αναπαραστάσεις και εκπαιδεύεται σε ένα μείγμα συμπληρωματικών πολυτροπικών δεδομένων μεγάλης κλίμακας που προέρχονται μόνο από τον ιστό χωρίς να χρησιμοποιεί δεδομένα σχολιασμένα για σκοπούς μηχανικής εκμάθησης. Ξεπερνά όλες τις προηγούμενες προσεγγίσεις εκμάθησης λίγων βολών όταν δίνονται μόλις τέσσερα παραδείγματα ανά εργασία και ξεπερνά τις μεθόδους που είναι βελτιστοποιημένες και βελτιστοποιημένες για κάθε εργασία ανεξάρτητα και χρησιμοποιούν πολλαπλές τάξεις μεγέθους περισσότερο δεδομένα για συγκεκριμένες εργασίες. Επίσης, δοκίμασε τις ποιοτικές δυνατότητες του μοντέλου πέρα ​​από τα τρέχοντα σημεία αναφοράς του, όπως τη δημιουργία λεζάντας εικόνων που σχετίζονται με το φύλο και το χρώμα του δέρματος και την εκτέλεση των υπότιτλων που δημιουργούνται μέσω του API Perspective της Google, το οποίο αξιολογεί την τοξικότητα του κειμένου. Το Flamingo καθιστά δυνατή την αποτελεσματική προσαρμογή σε αυτά τα παραδείγματα και άλλες εργασίες on-the-fly χωρίς τροποποίηση του μοντέλου και επιδεικνύει δυνατότητες πολυτροπικού διαλόγου εκτός συσκευασίας.

Το Flamingo είναι μια οικογένεια μοντέλων γενικής χρήσης που μπορεί να εφαρμοστεί σε εργασίες κατανόησης εικόνας και βίντεο με ελάχιστα παραδείγματα για συγκεκριμένες εργασίες. Είναι μια αποτελεσματική και αποδοτική οικογένεια μοντέλων γενικής χρήσης που μπορεί να εφαρμοστεί σε εργασίες κατανόησης εικόνας και βίντεο με ελάχιστα παραδείγματα για συγκεκριμένες εργασίες. Οι ικανότητες του Flamingo ανοίγουν το δρόμο για πλούσιες αλληλεπιδράσεις με μαθημένα μοντέλα οπτικής γλώσσας που μπορούν να επιτρέψουν καλύτερη ερμηνεία και συναρπαστικές νέες εφαρμογές, όπως ένας οπτικός βοηθός.

Διαβάστε περισσότερα για το AI:

Αποποίηση ευθυνών

Σύμφωνα με το Οδηγίες του έργου Trust, σημειώστε ότι οι πληροφορίες που παρέχονται σε αυτήν τη σελίδα δεν προορίζονται και δεν πρέπει να ερμηνεύονται ως νομικές, φορολογικές, επενδυτικές, χρηματοοικονομικές ή οποιαδήποτε άλλη μορφή συμβουλής. Είναι σημαντικό να επενδύσετε μόνο ό,τι έχετε την πολυτέλεια να χάσετε και να αναζητήσετε ανεξάρτητες οικονομικές συμβουλές εάν έχετε οποιεσδήποτε αμφιβολίες. Για περισσότερες πληροφορίες, προτείνουμε να ανατρέξετε στους όρους και τις προϋποθέσεις, καθώς και στις σελίδες βοήθειας και υποστήριξης που παρέχονται από τον εκδότη ή τον διαφημιστή. MetaversePost δεσμεύεται για ακριβείς, αμερόληπτες αναφορές, αλλά οι συνθήκες της αγοράς υπόκεινται σε αλλαγές χωρίς προειδοποίηση.

Σχετικά με το Συγγραφέας

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Περισσότερα άρθρα
Νταμίρ Γιαλάλοφ
Νταμίρ Γιαλάλοφ

Ο Damir είναι ο αρχηγός της ομάδας, ο διευθυντής προϊόντων και ο συντάκτης στο Metaverse Post, καλύπτοντας θέματα όπως AI/ML, AGI, LLMs, Metaverse και Web3-σχετικά πεδία. Τα άρθρα του προσελκύουν ένα τεράστιο κοινό άνω του ενός εκατομμυρίου χρηστών κάθε μήνα. Φαίνεται να είναι ειδικός με 10ετή εμπειρία στο SEO και το ψηφιακό μάρκετινγκ. Ο Damir έχει αναφερθεί στο Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto και άλλες εκδόσεις. Ταξιδεύει μεταξύ των ΗΑΕ, της Τουρκίας, της Ρωσίας και της ΚΑΚ ως ψηφιακός νομάδας. Ο Damir απέκτησε πτυχίο στη φυσική, το οποίο πιστεύει ότι του έχει δώσει τις δεξιότητες κριτικής σκέψης που απαιτούνται για να είναι επιτυχής στο συνεχώς μεταβαλλόμενο τοπίο του Διαδικτύου. 

Hot Stories
Εγγραφείτε στο ενημερωτικό μας δελτίο.
Τελευταία νέα

Η θεσμική όρεξη αυξάνεται προς τα ETF του Bitcoin εν μέσω αστάθειας

Οι αποκαλύψεις μέσω των καταθέσεων 13F αποκαλύπτουν αξιόλογους θεσμικούς επενδυτές που ασχολούνται με τα Bitcoin ETF, υπογραμμίζοντας την αυξανόμενη αποδοχή του ...

Μάθετε περισσότερα

Έφτασε η ημέρα της ποινής: Η μοίρα της CZ βρίσκεται σε ισορροπία καθώς το δικαστήριο των ΗΠΑ εξετάζει την ένσταση του DOJ

Ο Changpeng Zhao είναι έτοιμος να αντιμετωπίσει την καταδίκη σε αμερικανικό δικαστήριο στο Σιάτλ σήμερα.

Μάθετε περισσότερα
Γίνετε μέλος της Καινοτόμου Τεχνολογικής Κοινότητας μας
Δείτε Περισσότερα
Διάβασε περισσότερα
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
Business Αναφορά ειδήσεων Τεχνολογία
Το Injective ενώνει τις δυνάμεις του με το AltLayer για να επαναφέρει την ασφάλεια στο inEVM
3 Μαΐου 2024
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Masa συνεργάζεται με το Teller για να εισαγάγει το MASA Lending Pool, ενεργοποιεί τον βασικό δανεισμό USDC
3 Μαΐου 2024
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
αγορές Αναφορά ειδήσεων Τεχνολογία
Η Velodrome κυκλοφορεί την έκδοση Superchain Beta τις επόμενες εβδομάδες και επεκτείνεται σε όλες τις OP Stack Layer 2 Blockchains
3 Μαΐου 2024
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
Business Αναφορά ειδήσεων Τεχνολογία
Η CARV ανακοινώνει συνεργασία με την Aethir για την αποκέντρωση του επιπέδου δεδομένων της και τη διανομή ανταμοιβών
3 Μαΐου 2024
CRYPTOMERIA LABS PTE. Ε.Π.Ε.