29 Mei 2023

Google Mengajar Model AI Flamingo untuk Menulis Deskripsi untuk Video YouTube

Diterbitkan: 29 Mei 2023 pukul 2:00 Diperbarui: 29 Mei 2023 pukul 10:55

Diedit dan diperiksa faktanya: 29 Mei 2023 pukul 2

Singkatnya

Flamingo memecahkan masalah video pendek yang sulit ditemukan melalui pencarian dengan membuat deskripsi secara otomatis.

Google DeepMind, laboratorium penelitian AI, memiliki dikembangkan model bahasa visual bernama Flamingo yang mampu menulis deskripsi untuk video pendek di YouTube. Masalah yang Flamingo atasi adalah video pendek seringkali sulit ditemukan melalui pencarian karena kurangnya informasi yang diperlukan dalam deskripsi. Model Flamingo mengatasi masalah ini dengan membuat teks secara otomatis untuk jutaan klip video pendek di situs hosting video, yang digunakan "di belakang layar" untuk memudahkan pencarian. Meskipun pembuat video tidak akan melihat metadatanya, ini membantu pemirsa untuk menemukan dan menjelajahi video pendek. Saat ini, Flamingo telah lama mengerjakan klip baru dan memproses video lama yang diunggah ke YouTube.

Google Mengajar Model AI Flamingo untuk Menulis Deskripsi untuk Video YouTube — deepmind.com

Di masa lalu, Google memperkenalkan algoritme yang memungkinkan orang mencari informasi di dalam video menggunakan bilah pencarian. Baru-baru ini, TwelveLabs mengumpulkan $12 juta dari investor untuk pengembangan serupa. Alat-alat ini menciptakan peluang baru untuk video pencipta konten untuk meningkatkan jangkauan dan visibilitas mereka. Dengan memanfaatkan AI untuk meningkatkan dan menyederhanakan proses pencarian dan penemuan konten bentuk pendek, DeepMind, dan startup serupa merevolusi video Layanan streaming. Mereka berkontribusi pada pengembangan teknologi penelusuran yang lebih cerdas dan efisien, mempermudah pemirsa untuk menemukan konten yang benar-benar menarik bagi mereka.

Kecerdasan buatan memainkan peran penting dalam meningkatkan teknologi pencarian. Dengan memanfaatkan AI, model Flamingo dapat memindai dan membuat serial konten dan menghasilkan teks yang meringkas konten untuk membantu navigasi pengguna. Model Flamingo menggunakan jaringan saraf dalam untuk menghasilkan deskripsi tekstual dari klip video berdasarkan konten audio dan visual video. Itu dapat menangkap komponen pendengaran dan visual dari konten bentuk pendek dan mengubahnya menjadi ringkasan yang mudah dicari dan diakses pengguna.

Penggunaan AI dapat membantu mengidentifikasi informasi penting bagi pengguna, yang mungkin terlewatkan dalam upaya manual pembuat saat menambahkan deskripsi. Upaya yang memakan waktu untuk menangkap setiap detail secara manual tidak selalu praktis, terutama dengan aliran konstan konten video pendek yang diunggah di platform seperti YouTube. Ini dapat menyebabkan kebingungan dan frustrasi pengguna saat mencari konten bentuk pendek tertentu. Namun, dengan penggunaan model bahasa visual, seperti Flamingo, metadata dapat dibuat secara otomatis untuk memberikan ringkasan agar mudah diakses, sehingga menghemat waktu dan membuat proses pencarian menjadi lebih efisien dan akurat.

Flamingo Menetapkan Model Bahasa Visual Canggih Baru Untuk Tugas Terbuka

Detail terpenting adalah pengenalan Flamingo, model bahasa visual tunggal (VLM) yang menetapkan kecanggihan baru dalam pembelajaran singkat pada berbagai tugas multimodal terbuka. Flamingo adalah model bahasa visual tunggal (VLM) yangdefines pembelajaran singkat di berbagai aktivitas multimoda terbuka. Ia menerima a cepat terdiri dari gambar, video, dan teks yang disisipkan sebagai input dan output bahasa terkait. Antarmuka visual dan teks Flamingo, seperti model bahasa besar (LLM), dapat mengarahkan model untuk mencapai tujuan multimodal. Model dapat mengajukan pertanyaan dengan gambar atau video segar dan kemudian menyusun jawaban, diberi beberapa contoh pasangan input visual dan respons teks yang diharapkan yang disusun dalam prompt Flamingo.

Flamingo adalah model bahasa visual yang memadukan model bahasa besar dengan representasi visual yang kuat dan dilatih pada campuran data multimodal skala besar komplementer yang hanya berasal dari web tanpa menggunakan data apa pun yang dianotasi untuk tujuan pembelajaran mesin. Itu mengalahkan semua pendekatan pembelajaran beberapa langkah sebelumnya ketika diberikan sedikitnya empat contoh per tugas dan mengungguli metode yang disetel dengan baik dan dioptimalkan untuk setiap tugas secara mandiri dan menggunakan beberapa kali lipat lebih banyak data khusus tugas. Itu juga menguji kemampuan kualitatif model di luar tolok ukurnya saat ini, seperti memberi teks pada gambar yang terkait dengan jenis kelamin dan warna kulit dan menjalankan teks yang dihasilkannya melalui API Perspektif Google, yang mengevaluasi toksisitas teks. Flamingo memungkinkan untuk secara efisien beradaptasi dengan contoh-contoh ini dan tugas-tugas lain dengan cepat tanpa memodifikasi model dan mendemonstrasikan kemampuan dialog multimodal out-of-the-box.

Flamingo adalah keluarga model tujuan umum yang dapat diterapkan pada tugas pemahaman gambar dan video dengan contoh spesifik tugas yang minimal. Ini adalah keluarga model tujuan umum yang efektif dan efisien yang dapat diterapkan pada tugas pemahaman gambar dan video dengan contoh spesifik tugas yang minimal. Kemampuan Flamingo membuka jalan menuju interaksi yang kaya dengan model bahasa visual terpelajar yang dapat memungkinkan interpretasi yang lebih baik dan aplikasi baru yang menarik, seperti asisten visual.

Baca lebih lanjut tentang AI:

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.

lebih artikel

Damir Yalalov