Nyhetsrapport Teknologi
Mars 15, 2023

GPT-4 Kan hantera dina förfrågningar om bilder, dokument, diagram och skärmdumpar

I korthet

GPT-4 kan hantera förfrågningar om bilder, dokument, diagram och skärmdumpar. Det är en förbättring över GPT-3, som bara hanterade text.

GPT-4 har överlägsen prestation i olika tentor och tester och kan få tillgång till ytterligare information och detaljer genom bilder som kanske inte är tillgängliga i skriftlig form.

gpt-4 bilder dokumenterar skärmdumpar

OpenAIs senaste milstolpe, den nya modellen GPT-4, kan acceptera förfrågningar som inkluderar bilder, dokument med text, diagram eller skärmdumpar som indata. Detta är en betydande förbättring jämfört med den tidigare versionen, GPT-3, som bara kunde förstå och mata ut text. Med denna nya funktion, GPT-4 genererar textutgångar givet indata som består av varvat text och bilder.

”Över en rad domäner – inklusive dokument med text och fotografier, diagram eller skärmdumpar –GPT-4 uppvisar liknande möjligheter som på textinmatningar,

OpenAI skrev.

ChatGPT-4 har en större storlek än sina föregångare, vilket indikerar att den har genomgått utbildning på en större mängd data och innehåller fler vikter i sin modellfil, vilket resulterar i en högre kostnad för dess drift. Det senaste AI-språket kan generera människoliknande text genom att använda djupt lärande och att vara förtränad på ett stort dataset.

GPT-4 har visade överlägsen prestanda jämfört med andra AI-språk i en mängd olika tentor och prov, delvis på grund av dess förmåga att få tillgång till ytterligare information och detaljer genom bilder som kanske inte är tillgängliga i skriftlig form.

Den nya GPT-4 modellen kan berätta exakt vad som avbildas i illustrationen, analysera det och till och med förklara dess innebörd. I demon, GPT-4 förklarade det visuella skämtet där en VGA-kabel är ansluten till iPhone. Det kan också förklara vad som är ovanligt i en bild som visar "extrem strykning", som du kan kolla in nedan.

gpt-4 bilder
Källa: OpenAI

Men det finns också mer användbara implikationer GPT-4s nyvunna kunskap. I presentationen visades att PGT-4 kunde berätta vad som kunde tillagas av ingredienserna som visas på bilden. Det betyder att modellen kan hjälpa dig att laga mat om du har matprodukter och ingen aning om vad du ska göra med dem. Ta en ögonblicksbild av maten du har och chatta-GPT kan berätta vad du kan tillaga av de ingredienser som du har hemma.

Denna förmåga att förstå och tolka visuell information gör GPT-4 ett kraftfullt verktyg för uppgifter som bildtextning, visuella frågor och till och med skapande av innehåll. Med integrationen av både text och visuell förståelse, GPT-4 har potential att revolutionera olika branscher, såsom reklam, design och e-handel, och hjälpa människor att göra de tråkiga, vardagliga uppgifterna åt dem.

Den avancerade språkmodell "förstår" även skärmdumpar och dokument med text, tabeller, diagram eller andra visuella representationer. Om du till exempel laddar upp en tresidig forskningsartikel och behöver den sammanfattad och förklarad, GPT-4 är kapabel att göra det. 

Bloombergs ankare Jon Erlichman visade hur han kunde förvandla en handskissad design till en funktionell webbplats.

Den nya tekniken kan också användas som ett mobilitetshjälpmedel då den skulle kunna användas för att beskriva miljön för synskadade. För detta ändamål har Open AI redan samarbetat med en applikation som heter Var mina ögon som har utformats för att ge blinda en hjälpande hand när de behöver titta på något, till exempel när de handlar mat. Appen låter "seende volontärer och proffs låna ut sina ögon för att lösa uppgifter stora och små för att hjälpa blinda och synskadade människor att leva mer självständiga liv." Nu erbjuder den också ett virtuellt volontärverktyg som drivs av OpenAIÄr GPT-4.

Även OpenAIÄr GPT-4 erbjuder för närvarande möjligheten att bearbeta text och bilder som indata, modellen är ännu inte utrustad för att hantera ljud- och videoingångar. Ändå finns det indikationer på att dessa modaliteter kan inkluderas i nästa iteration av tekniken.

Läs mer:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Agne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].

fler artiklar
Agne Cimerman
Agne Cimerman

Agne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
AI Renaissance i spelutveckling 2024
AI Wiki Metavers Wiki Utbildning Marknader Mjukvara Teknologi
AI Renaissance i spelutveckling 2024
Maj 1, 2024
Inuti Estée Lauders nya AI Innovation Lab: En närmare titt på hur generativ AI förvandlar skönhetsvarumärken
Livsstil Mjukvara Berättelser och recensioner Teknologi
Inuti Estée Lauders nya AI Innovation Lab: En närmare titt på hur generativ AI förvandlar skönhetsvarumärken
Maj 1, 2024
Chainlink And Rapid Addition samarbetar för att utveckla CCIP-baserad blockkedjeadapter
Företag Nyhetsrapport Teknologi
Chainlink And Rapid Addition samarbetar för att utveckla CCIP-baserad blockkedjeadapter
Maj 1, 2024
BitSmiley lanserar Alphanet V1, debuterar på Bitcoin Layer 2 Network Bitlayer
Nyhetsrapport Teknologi
BitSmiley lanserar Alphanet V1, debuterar på Bitcoin Layer 2 Network Bitlayer
Maj 1, 2024