Nyheds rapport Teknologier
Marts 15, 2023

GPT-4 Kan håndtere dine anmodninger om billeder, dokumenter, diagrammer og skærmbilleder

Kort sagt

GPT-4 kan håndtere anmodninger om billeder, dokumenter, diagrammer og skærmbilleder. Det er en forbedring i forhold til GPT-3, som kun håndterede tekst.

GPT-4 har overlegen præstation i forskellige eksamener og tests og kan få adgang til yderligere information og detaljer gennem billeder, der muligvis ikke er tilgængelige i skriftlig form.

gpt-4 billeder dokumenterer skærmbilleder

OpenAI's seneste milepæl, den nye model GPT-4, kan acceptere anmodninger, der inkluderer billeder, dokumenter med tekst, diagrammer eller skærmbilleder som input. Dette repræsenterer en væsentlig forbedring i forhold til den tidligere version, GPT-3, som kun kunne forstå og udskrive tekst. Med denne nye funktion, GPT-4 genererer tekstoutput givet input bestående af indskudt tekst og billeder.

"Over en række domæner - inklusive dokumenter med tekst og fotografier, diagrammer eller skærmbilleder -GPT-4 udviser lignende egenskaber, som det gør på input-kun tekst,"

OpenAI skrev.

ChatGPT-4 har en større størrelse end sine forgængere, hvilket indikerer, at den har gennemgået træning på en større mængde data og indeholder flere vægte i sin modelfil, hvilket resulterer i en højere omkostning for dens drift. Det nyeste AI-sprog kan generere menneskelignende tekst ved at bruge dyb læring og bliver fortrænet på et stort datasæt.

GPT-4 har demonstreret overlegen ydeevne i forhold til andre AI-sprog i en række forskellige eksamener og tests på grund af dets evne til at få adgang til yderligere information og detaljer gennem billeder, der muligvis ikke er tilgængelige i en skriftlig form.

Den nye GPT-4 modellen kan fortælle dig, hvad der præcist er afbildet i illustrationen, analysere det og endda forklare dets betydning. I demoen, GPT-4 forklarede den visuelle joke, hvor et VGA-kabel er tilsluttet iPhone. Det kan også forklare, hvad der er usædvanligt i et billede, der præsenterer "ekstrem strygning", som du kan se nedenfor.

gpt-4 billeder
Kilde: OpenAI

Men der er også mere brugbare implikationer til GPT-4s nyfundne viden. I oplægget blev det vist, at PGT-4 kunne fortælle, hvad der kunne tilberedes af ingredienserne vist på billedet. Det betyder, at modellen kan hjælpe dig med at lave mad, hvis du har madvarer og ingen anelse om, hvad du skal gøre med dem. Tag et øjebliksbillede af den mad, du har, og chat-GPT kan fortælle dig, hvad du kan tilberede af de ingredienser, som du har derhjemme.

Denne evne til at forstå og fortolke visuel information gør GPT-4 et kraftfuldt værktøj til opgaver som billedtekstning, visuel besvarelse af spørgsmål og endda oprettelse af indhold. Med integration af både tekst og visuel forståelse, GPT-4 har potentialet til at revolutionere forskellige industrier, såsom reklame, design og e-handel, og hjælpe folk med at udføre de kedelige, hverdagsagtige opgaver for dem.

Den avancerede sprogmodel også 'forstår' skærmbilleder og dokumenter med tekst, tabeller, diagrammer eller andre visuelle repræsentationer. For eksempel, hvis du uploader et tre-siders forskningspapir og har brug for det opsummeret og forklaret, GPT-4 er i stand til det. 

Bloombergs anker Jon Erlichman demonstrerede, hvordan han var i stand til at omdanne et håndskitseret design til et funktionelt websted.

Den nye teknologi kan også bruges som mobilitetshjælpemiddel, da den kan bruges til at beskrive miljøet for synshandicappede. Til dette formål har Open AI allerede indgået partnerskab med en applikation kaldet Vær mine øjne som er designet til at give blinde en hjælpende hånd, når de for eksempel skal kigge på noget, mens de handler. Appen lader "seende frivillige og fagfolk låne deres øjne til at løse store og små opgaver for at hjælpe blinde og svagsynede mennesker til at leve et mere selvstændigt liv." Nu tilbyder det også et virtuelt frivilligt værktøj drevet af OpenAI's GPT-4.

Skønt OpenAI's GPT-4 tilbyder i øjeblikket muligheden for at behandle tekst og billeder som input, modellen er endnu ikke udstyret til at håndtere lyd og video input. Ikke desto mindre er der indikationer på, at disse modaliteter kan indgå i den næste iteration af teknologien.

Læs mere:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Agne er en journalist, der dækker de seneste trends og udviklinger inden for metaverset, AI og Web3 industrier for Metaverse Post. Hendes passion for historiefortælling har fået hende til at gennemføre adskillige interviews med eksperter inden for disse områder, hvor hun altid søger at afdække spændende og engagerende historier. Agne er uddannet bachelor i litteratur og har en omfattende baggrund i at skrive om en bred vifte af emner, herunder rejser, kunst og kultur. Hun har også været frivillig som redaktør for dyrerettighedsorganisationen, hvor hun var med til at skabe opmærksomhed omkring dyrevelfærdsspørgsmål. Kontakt hende på [e-mail beskyttet].

Flere artikler
Agne Cimerman
Agne Cimerman

Agne er en journalist, der dækker de seneste trends og udviklinger inden for metaverset, AI og Web3 industrier for Metaverse Post. Hendes passion for historiefortælling har fået hende til at gennemføre adskillige interviews med eksperter inden for disse områder, hvor hun altid søger at afdække spændende og engagerende historier. Agne er uddannet bachelor i litteratur og har en omfattende baggrund i at skrive om en bred vifte af emner, herunder rejser, kunst og kultur. Hun har også været frivillig som redaktør for dyrerettighedsorganisationen, hvor hun var med til at skabe opmærksomhed omkring dyrevelfærdsspørgsmål. Kontakt hende på [e-mail beskyttet].

Hot Stories

BRICS Nations Eye Stablecoin Trade Solution

by Viktoria Palchik
Maj 01, 2024
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Ankr samarbejder med AI Blockchain Platform Talus Network for at låse op for Bitcoin-likviditet til AI
Forretning Nyheds rapport Teknologier
Ankr samarbejder med AI Blockchain Platform Talus Network for at låse op for Bitcoin-likviditet til AI
Maj 1, 2024
Binance Labs understøtter Movement Labs for at lette Facebooks Move-integration på tværs af blockchains
Forretning Nyheds rapport Teknologier
Binance Labs understøtter Movement Labs for at lette Facebooks Move-integration på tværs af blockchains
Maj 1, 2024
BRICS Nations Eye Stablecoin Trade Solution
Forretning Markeder Historier og anmeldelser Teknologier
BRICS Nations Eye Stablecoin Trade Solution
Maj 1, 2024
Bitcoin L2 Network BOB integreres med LayerZero for forbedret funktionalitet
Forretning Nyheds rapport Teknologier
Bitcoin L2 Network BOB integreres med LayerZero for forbedret funktionalitet
Maj 1, 2024