Nieuwsverslag Technologie
19 september 2023

Gobi: OpenAI's Multimodal LLM wil Google's Gemini verslaan

In het kort

Google's Gemini, een AI-model van de volgende generatie, wint aan belangstelling vanwege zijn multimodale mogelijkheden.

Het gaat hierbij om een ​​model dat met meerdere modaliteiten werkt, zoals tekst, afbeeldingen en video en audio.

OpenAI wil de race in multimodaliteit leiden met Gobi, een multimodaal model dat voor dit doel is ontworpen en getraind.

De recente buzz in de technische wereld draait om Google's Gemini, het model van de volgende generatie, dat met name het domein van multimodaliteit betreedt. Maar wat is multimodaliteit in AI precies, en waarom genereert het zoveel belangstelling?

Gobi: OpenAI's Multimodal LLM Wil Google's Gemini verslaan
Verwant: Google heeft AI-model Flamingo geleerd om beschrijvingen voor YouTube-video's te schrijven

Multimodale AI betekent in wezen het vermogen van een model om met meerdere modaliteiten te werken, zoals tekst, afbeeldingen en mogelijk zelfs video en audio. Het implementeren van multimodaliteit kan echter verschillende benaderingen vereisen. Eén benadering, in de volksmond ‘voor het zuinige’ genoemd, omvat het gebruik van twee afzonderlijke modellen: een voor afbeeldingen en een andere, doorgaans een groottaalmodel (LLM), voor tekst. Een overbruggingslaag wordt vervolgens getraind om afbeeldingen te vertalen naar een tekstachtig formaat dat begrijpelijk is voor de LLM. Hoewel deze aanpak al enige tijd wordt onderzocht in open-source AI, heeft deze zijn beperkingen, vooral omdat de LLM de essentie van andere modaliteiten misschien niet echt begrijpt; ze zijn in zekere zin alleen maar toegevoegd.

Een ambitieuzer pad omvat het trainen van een model vanaf de basis om meerdere modaliteiten tegelijkertijd te begrijpen en ermee te werken. Een dergelijke benadering heeft tot doel het model te voorzien van een holistisch begrip van de wereld, waardoor de cognitieve capaciteiten en het vermogen om oorzaak-en-gevolgrelaties te onderscheiden worden vergroot.

Dit brengt ons bij de nieuwste ontwikkeling op het gebied van AI, waar OpenAI zichzelf strategisch positioneert de multimodale race leiden. Hun favoriete wapen: Gobi, een multimodaal model dat vanaf het begin als zodanig is ontworpen en getraind. In tegenstelling tot zijn voorganger GPT-4, Gobi is ontworpen met multimodaliteit in gedachten, wat een aanzienlijke stap voorwaarts betekent in de veelzijdigheid van AI.

Er zit echter een wending in het verhaal. Volgens rapporten lijkt het erop dat Gobi's training nog niet is begonnen, wat vragen oproept over de tijdlijn ervan Google's Tweeling, gepland voor release in het najaar van 2023. De concurrentie neemt toe en de race om AI-suprematie in het multimodale landschap is begonnen.

Je zou je kunnen afvragen waarom de ontwikkeling van een nieuw model zoveel tijd kost, vooral als het ‘slechts’ om het integreren van beelden lijkt te gaan. Het antwoord ligt in de complexiteit van AI-ethiek en mogelijk misbruik. De toevoeging van visuele inzichtmogelijkheden roept zorgen op, zoals het misbruik van AI om captcha’s te omzeilen of in te zetten gezichtsherkenning voor het volgen van individuen. OpenAIHet lijkt erop dat ze deze ethische en juridische overwegingen ijverig aanpakken voordat ze hun technologie uitrollen.

Salesforce- en multimodale modellen

Veel bedrijven zijn betrokken bij het trainen van toekomstige multimodale modellen. Salesforce, een toonaangevend SaaS CRM-systeem, heeft zich bijvoorbeeld gefocust op AI-onderzoek om de benodigde middelen voor hun modellen te verminderen. Ze hebben gewerkt aan LLM's en multimodale modellen, die werken met meerdere gegevenstypen, zoals afbeeldingen, tekst, geluid en video. Een voorbeeld van multimodaliteit is het beantwoorden van vragen op basis van afbeeldingen. De grootste uitdaging is echter het integreren van twee verschillende signalen uit beeld en tekst. Bestaande benaderingen vereisen vaak een lange training van grote modellen om ze op één lijn te brengen of te verbinden.

Salesforce stelt voor om bestaande modellen te hergebruiken, hun gewichten tijdens de training te bevriezen en een klein raster ertussen te trainen om query's van het ene model naar het andere te genereren. Deze aanpak vereist minimale training en resulteert in betere meetgegevens dan de huidige state-of-the-art aanpak. De aanpak is briljant in zijn eenvoud en elegantie.

Het artikel biedt code voor de voorgestelde aanpak, en samenwerkingsversie is beschikbaar voor gebruikers om met hun foto's te experimenteren. De aanpak is briljant in zijn eenvoud en elegantie.

Lees meer gerelateerde onderwerpen:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
markten Nieuwsverslag Technologie
Sophon lanceert Liquidity Farming en wijst 10% van het totale SOPH-tokenaanbod toe aan beloningsdeelnemers
18 June 2024
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
Nieuwsverslag Technologie
API3 introduceert Oracle Stack On Bitlayer voor verbeterde ontwikkelaarservaring
18 June 2024
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
Advies Business markten Software Technologie
Vervuiling beperken? Hoe de voormalige energievarkens van Bitcoin ernaar streven de koolstofbui van AI te stoppen
18 June 2024
dForce introduceert gedecentraliseerde Stablecoin sUSX voor het verdienen van rendement en biedt gebruikers verbeterde liquiditeit
Nieuwsverslag Technologie
dForce introduceert gedecentraliseerde Stablecoin sUSX voor het verdienen van rendement en biedt gebruikers verbeterde liquiditeit
18 June 2024