Semoga 29, 2023

Google Mengajar Model AI Flamingo untuk Menulis Penerangan untuk Video YouTube

Diterbitkan: 29 Mei 2023 pada 2:00 petang Dikemas kini: 29 Mei 2023 pada 10:55 pagi

Disunting dan disemak fakta: 29 Mei 2023 jam 2:00 petang

Secara ringkas

Flamingo menyelesaikan masalah video pendek yang sukar dicari melalui carian dengan membuat penerangan secara automatik.

Google DeepMind, makmal penyelidikan AI, telah maju model bahasa visual yang dipanggil Flamingo yang mampu menulis penerangan untuk video pendek di YouTube. Masalah yang ditangani oleh Flamingo ialah video pendek selalunya sukar dikesan melalui carian kerana kekurangan maklumat yang diperlukan dalam huraian. Model Flamingo menyelesaikan masalah ini dengan menjana teks secara automatik untuk berjuta-juta klip video pendek pada tapak pengehosan video, yang digunakan "di belakang tabir" untuk membolehkan carian mudah. Walaupun pengarang video tidak akan melihat metadata, ia membantu penonton mencari dan menavigasi seluar pendek. Pada masa ini, Flamingo telah lama mengusahakan klip baharu dan memproses video lama yang dimuat naik ke YouTube.

Google Mengajar Model AI Flamingo untuk Menulis Penerangan untuk Video YouTube — deepmind.com

Pada masa lalu, Google memperkenalkan algoritma yang membolehkan orang ramai mencari maklumat dalam video menggunakan bar carian. Baru-baru ini, TwelveLabs mengumpulkan $12 juta daripada pelabur untuk pembangunan yang serupa. Alat ini mencipta peluang baharu untuk video pencipta kandungan untuk meningkatkan jangkauan dan penglihatan mereka. Dengan memanfaatkan AI untuk menambah baik dan memudahkan proses carian dan penemuan kandungan bentuk pendek, DeepMind dan syarikat permulaan yang serupa, merevolusikan video Perkhidmatan penstriman. Mereka menyumbang kepada pembangunan teknologi carian yang lebih pintar dan cekap, menjadikannya lebih mudah bagi penonton untuk mencari kandungan yang benar-benar menarik minat mereka.

Kecerdasan buatan memainkan peranan penting dalam meningkatkan teknologi carian. Dengan memanfaatkan AI, model Flamingo boleh mengimbas dan mensiri kandungan serta menjana teks yang meringkaskan kandungan untuk membantu pengguna menavigasi. Model Flamingo menggunakan rangkaian saraf dalam untuk menjana penerangan teks bagi klip video berdasarkan kandungan audio dan visual video. Ia boleh menangkap komponen pendengaran dan visual kandungan bentuk pendek dan mengubahnya menjadi ringkasan yang mudah untuk dicari dan diakses oleh pengguna.

Penggunaan AI boleh membantu mengenal pasti maklumat penting untuk pengguna, yang mungkin terlepas dalam usaha manual pencipta semasa menambah penerangan. Usaha yang memakan masa untuk menangkap setiap butiran secara manual tidak selalunya praktikal, terutamanya dengan aliran berterusan kandungan video bentuk pendek yang dimuat naik pada platform seperti YouTube. Ini boleh menyebabkan kekeliruan dan kekecewaan pengguna apabila mencari kandungan bentuk pendek tertentu. Walau bagaimanapun, dengan penggunaan model bahasa visual, seperti Flamingo, metadata boleh dijana secara automatik untuk menyediakan ringkasan untuk akses mudah, sekali gus menjimatkan masa dan menjadikan proses carian lebih cekap dan tepat.

Flamingo Menetapkan Model Bahasa Visual Tercanggih Baharu Untuk Tugasan Terbuka

Butiran yang paling penting ialah pengenalan Flamingo, model bahasa visual tunggal (VLM) yang menetapkan keadaan seni baharu dalam pembelajaran beberapa pukulan pada pelbagai tugas multimodal terbuka. Flamingo ialah model bahasa visual tunggal (VLM) yang semuladefipembelajaran beberapa pukulan merentasi pelbagai aktiviti multimodal terbuka. Ia menerima a segera yang terdiri daripada imej bersilang, video dan teks sebagai input dan output bahasa yang berkaitan. Antara muka visual dan teks Flamingo, seperti model bahasa besar (LLM), boleh membawa model ke arah mencapai matlamat pelbagai mod. Model boleh diajukan soalan dengan imej atau video baharu dan kemudian membina jawapan, diberikan beberapa contoh pasangan input visual dan respons teks yang dijangkakan yang disusun dalam gesaan Flamingo.

Flamingo ialah model bahasa visual yang menggabungkan model bahasa besar dengan perwakilan visual yang berkuasa dan dilatih pada campuran data multimodal berskala besar pelengkap yang datang hanya daripada web tanpa menggunakan sebarang data yang dianotasi untuk tujuan pembelajaran mesin. Ia mengatasi semua pendekatan pembelajaran beberapa pukulan sebelum ini apabila diberikan sesedikit empat contoh setiap tugas dan mengatasi kaedah yang diperhalusi dan dioptimumkan untuk setiap tugas secara bebas dan menggunakan berbilang susunan magnitud lebih banyak data khusus tugasan. Ia juga menguji keupayaan kualitatif model melangkaui penanda aras semasanya, seperti kapsyen imej yang berkaitan dengan jantina dan warna kulit dan menjalankan kapsyen yang dijana melalui API Perspektif Google, yang menilai ketoksikan teks. Flamingo memungkinkan untuk menyesuaikan diri dengan cekap kepada contoh-contoh ini dan tugas-tugas lain dengan cepat tanpa mengubah suai model dan menunjukkan keupayaan dialog multimodal yang luar biasa.

Flamingo ialah keluarga model tujuan umum yang boleh digunakan pada tugas pemahaman imej dan video dengan contoh khusus tugasan yang minimum. Ia adalah keluarga model tujuan am yang berkesan dan cekap yang boleh digunakan pada tugas pemahaman imej dan video dengan contoh khusus tugasan yang minimum. Kebolehan Flamingo membuka jalan ke arah interaksi yang kaya dengan model bahasa visual yang dipelajari yang boleh membolehkan kebolehtafsiran yang lebih baik dan aplikasi baharu yang menarik, seperti pembantu visual.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov