Uutisraportti Elektroniikka
Voi 29, 2023

Google opetti AI-mallin Flamingon kirjoittamaan kuvauksia YouTube-videoille

Lyhyesti

Flamingo ratkaisee lyhyiden videoiden ongelman haun kautta luomalla automaattisesti kuvaukset.

Google DeepMind, tekoälytutkimuslaboratorio, on kehitetty visuaalinen kielimalli nimeltä Flamingo, joka pystyy kirjoittamaan kuvauksia lyhyille YouTube-videoille. Flamingon ongelmana on se, että lyhyitä videoita on usein vaikea löytää haun avulla, koska kuvauksessa ei ole tarvittavaa tietoa. Flamingo-malli ratkaisee tämän ongelman luomalla automaattisesti tekstit miljoonille lyhyille videoleikkeille videopalvelusivustoilla, joita käytetään "kulissien takana" helpon haun mahdollistamiseksi. Vaikka videon tekijät eivät näe metatietoja, se auttaa katsojia löytämään ja navigoimaan shortsit. Tällä hetkellä Flamingo on työstänyt uusia klippejä ja prosessoinut vanhoja YouTubeen ladattuja videoita pitkään.

Google opetti AI-mallin Flamingon kirjoittamaan kuvauksia YouTube-videoille
deepmind.com

Aiemmin Google esitteli algoritmin, jonka avulla ihmiset voivat etsiä tietoa videoista hakupalkin avulla. Äskettäin TwelveLabs keräsi sijoittajilta 12 miljoonaa dollaria vastaavaa kehitystä varten. Nämä työkalut luovat uusia mahdollisuuksia videolle sisällön luojat lisätäkseen niiden ulottuvuutta ja näkyvyyttä. Hyödyntämällä tekoälyä parantamaan ja yksinkertaistamaan hakuprosessia ja lyhyen sisällön löytämistä, DeepMind ja vastaavat startup-yritykset mullistavat videoita Suoratoistopalvelut. Ne edistävät älykkäämpien ja tehokkaampien hakutekniikoiden kehittämistä, mikä tekee katsojien entistä helpommaksi löytää heitä todella kiinnostavaa sisältöä.

Tekoälyllä on merkittävä rooli hakuteknologioiden päivittämisessä. Hyödyntämällä tekoälyä Flamingo-malli voi skannata ja sarjottaa sisällön ja luoda tekstejä, jotka tiivistävät sisällön helpottamaan käyttäjien navigointia. Flamingo-malli käyttää syviä hermoverkkoja luomaan videoleikkeen tekstillisiä kuvauksia videon ääni- ja kuvasisällön perusteella. Se voi kaapata lyhyen sisällön auditiiviset ja visuaaliset osat ja muuntaa ne yhteenvedoksi, jota käyttäjien on helppo etsiä ja käyttää.

Tekoälyn käyttö voi auttaa tunnistamaan käyttäjille tärkeitä tietoja, jotka saattavat jäädä huomaamatta tekijöiden manuaalisissa ponnisteluissa kuvauksia lisättäessä. Aikaa vievä ponnistus jokaisen yksityiskohdan manuaaliseen kaappaamiseen ei aina ole käytännöllistä, etenkään YouTuben kaltaisille alustoille ladatun lyhytmuotoisen videosisällön jatkuvan virran vuoksi. Tämä voi aiheuttaa käyttäjien hämmennystä ja turhautumista, kun he etsivät tiettyä lyhytmuotoista sisältöä. Visuaalisia kielimalleja, kuten Flamingoa, käytettäessä metatiedot voidaan kuitenkin luoda automaattisesti yhteenvedon saamiseksi helpon pääsyn helpottamiseksi, mikä säästää aikaa ja tekee hakuprosessista tehokkaampaa ja tarkempaa.

Flamingo asettaa uusia huippuluokan visuaalisia kielimalleja avoimiin tehtäviin

Tärkeimmät yksityiskohdat ovat Flamingon, yhden visuaalisen kielimallin, käyttöönotto (VLM). Flamingo on yksi visuaalinen kielimalli (VLM), joka redefins. harvoin tapahtuva oppiminen laajassa valikoimassa avoimen multimodaalisia toimintoja. Se vastaanottaa a nopea koostuu lomitetuista kuvista, videoista ja tekstistä syötteenä ja tulostaa niihin liittyvän kielen. Flamingon visuaalinen ja tekstikäyttöliittymä, kuten suurten kielimallien (LLM:t), voi johtaa mallia kohti multimodaalisen tavoitteen saavuttamista. Mallille voidaan esittää kysymys tuoreella kuvalla tai videolla ja sitten rakentaa vastaus, jossa annetaan muutama esimerkkipari visuaalisista syötteistä ja odotettavissa olevista tekstivastauksista, jotka on koottu Flamingon kehotteeseen.

Flamingo on visuaalinen kielimalli, joka yhdistää suuria kielimalleja tehokkaisiin visuaalisiin esityksiin ja on koulutettu yhdistelmään täydentävää laajamittaista multimodaalista dataa, joka tulee vain verkosta ilman koneoppimistarkoituksiin merkittyä dataa. Se päihittää kaikki aiemmat muutaman otoksen oppimismenetelmät, kun sille annetaan vain neljä esimerkkiä tehtävää kohden, ja se ylittää menetelmät, jotka on hienosäädetty ja optimoitu kullekin tehtävälle itsenäisesti ja jotka käyttävät useita suuruusluokkaa enemmän tehtäväkohtaisia ​​tietoja. Se testasi myös mallin laadullisia ominaisuuksia sen nykyisten vertailuarvojen lisäksi, kuten sukupuoleen ja ihonväriin liittyvien kuvien tekstittämistä ja luotujen tekstitysten suorittamista Googlen Perspective API:n kautta, joka arvioi tekstin myrkyllisyyden. Flamingo mahdollistaa tehokkaan sopeutumisen näihin esimerkkeihin ja muihin tehtäviin lennossa muuttamatta mallia ja esittelee valmiita multimodaalisia dialogivalmiuksia.

Flamingo on yleiskäyttöinen malliperhe, jota voidaan soveltaa kuvan ja videon ymmärtämistehtäviin minimaalisilla tehtäväkohtaisilla esimerkeillä. Se on tehokas ja tehokas yleiskäyttöinen malliperhe, jota voidaan soveltaa kuvan ja videon ymmärrystehtäviin minimaalisilla tehtäväkohtaisilla esimerkeillä. Flamingon kyvyt tasoittavat tietä rikkaalle vuorovaikutukselle opittujen visuaalisten kielimallien kanssa, jotka voivat mahdollistaa paremman tulkittavuuden ja jännittäviä uusia sovelluksia, kuten visuaalisen avustajan.

Lue lisää tekoälystä:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Bisnes Uutisraportti Elektroniikka
Injective yhdistää voimansa AltLayerin kanssa tuodakseen Restakingin turvallisuuden inEVM:ään
Voi 3, 2024
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
markkinat Uutisraportti Elektroniikka
Masa tekee yhteistyötä Tellerin kanssa ottaakseen käyttöön MASA-lainauspoolin, mikä mahdollistaa USDC-lainauksen pohjalta
Voi 3, 2024
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
markkinat Uutisraportti Elektroniikka
Velodrome julkaisee Superchain Beta -version tulevina viikkoina ja laajenee OP Stack Layer 2 -lohkoketjuihin
Voi 3, 2024
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Bisnes Uutisraportti Elektroniikka
CARV ilmoittaa yhteistyöstä Aethirin kanssa tietokerroksen hajauttamiseksi ja palkintojen jakamiseksi
Voi 3, 2024
CRYPTOMERIA LABS PTE. OY.