GPT-4 Kan hantera dina förfrågningar om bilder, dokument, diagram och skärmdumpar
I korthet
GPT-4 kan hantera förfrågningar om bilder, dokument, diagram och skärmdumpar. Det är en förbättring över GPT-3, som bara hanterade text.
GPT-4 har överlägsen prestation i olika tentor och tester och kan få tillgång till ytterligare information och detaljer genom bilder som kanske inte är tillgängliga i skriftlig form.
OpenAIs senaste milstolpe, den nya modellen GPT-4, kan acceptera förfrågningar som inkluderar bilder, dokument med text, diagram eller skärmdumpar som indata. Detta är en betydande förbättring jämfört med den tidigare versionen, GPT-3, som bara kunde förstå och mata ut text. Med denna nya funktion, GPT-4 genererar textutgångar givet indata som består av varvat text och bilder.
”Över en rad domäner – inklusive dokument med text och fotografier, diagram eller skärmdumpar –GPT-4 uppvisar liknande möjligheter som på textinmatningar,
OpenAI skrev.
ChatGPT-4 har en större storlek än sina föregångare, vilket indikerar att den har genomgått utbildning på en större mängd data och innehåller fler vikter i sin modellfil, vilket resulterar i en högre kostnad för dess drift. Det senaste AI-språket kan generera människoliknande text genom att använda djupt lärande och att vara förtränad på ett stort dataset.
GPT-4 har visade överlägsen prestanda jämfört med andra AI-språk i en mängd olika tentor och prov, delvis på grund av dess förmåga att få tillgång till ytterligare information och detaljer genom bilder som kanske inte är tillgängliga i skriftlig form.
Den nya GPT-4 modellen kan berätta exakt vad som avbildas i illustrationen, analysera det och till och med förklara dess innebörd. I demon, GPT-4 förklarade det visuella skämtet där en VGA-kabel är ansluten till iPhone. Det kan också förklara vad som är ovanligt i en bild som visar "extrem strykning", som du kan kolla in nedan.
Men det finns också mer användbara implikationer GPT-4s nyvunna kunskap. I presentationen visades att PGT-4 kunde berätta vad som kunde tillagas av ingredienserna som visas på bilden. Det betyder att modellen kan hjälpa dig att laga mat om du har matprodukter och ingen aning om vad du ska göra med dem. Ta en ögonblicksbild av maten du har och chatta-GPT kan berätta vad du kan tillaga av de ingredienser som du har hemma.
Denna förmåga att förstå och tolka visuell information gör GPT-4 ett kraftfullt verktyg för uppgifter som bildtextning, visuella frågor och till och med skapande av innehåll. Med integrationen av både text och visuell förståelse, GPT-4 har potential att revolutionera olika branscher, såsom reklam, design och e-handel, och hjälpa människor att göra de tråkiga, vardagliga uppgifterna åt dem.
Den avancerade språkmodell "förstår" även skärmdumpar och dokument med text, tabeller, diagram eller andra visuella representationer. Om du till exempel laddar upp en tresidig forskningsartikel och behöver den sammanfattad och förklarad, GPT-4 är kapabel att göra det.
Bloombergs ankare Jon Erlichman visade hur han kunde förvandla en handskissad design till en funktionell webbplats.
Den nya tekniken kan också användas som ett mobilitetshjälpmedel då den skulle kunna användas för att beskriva miljön för synskadade. För detta ändamål har Open AI redan samarbetat med en applikation som heter Var mina ögon som har utformats för att ge blinda en hjälpande hand när de behöver titta på något, till exempel när de handlar mat. Appen låter "seende volontärer och proffs låna ut sina ögon för att lösa uppgifter stora och små för att hjälpa blinda och synskadade människor att leva mer självständiga liv." Nu erbjuder den också ett virtuellt volontärverktyg som drivs av OpenAIÄr GPT-4.
Även OpenAIÄr GPT-4 erbjuder för närvarande möjligheten att bearbeta text och bilder som indata, modellen är ännu inte utrustad för att hantera ljud- och videoingångar. Ändå finns det indikationer på att dessa modaliteter kan inkluderas i nästa iteration av tekniken.
Läs mer:
- Topp 7 företag som adopterade GPT-4
- GPT-4-Baserad ChatGPT utklassar GPT-3 med en faktor på 570
- Microsoft bekräftar att Bing körs på Advanced GPT-4 Modell
- GPT-4 vs GPT-3: Vad har den nya modellen att erbjuda?
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Agne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].
fler artiklarAgne är en journalist som täcker de senaste trenderna och utvecklingen inom metaversen, AI och Web3 industrier för Metaverse Post. Hennes passion för berättande har lett till att hon har genomfört ett flertal intervjuer med experter inom dessa områden och alltid försökt avslöja spännande och engagerande berättelser. Agne har en kandidatexamen i litteratur och har en omfattande bakgrund i att skriva om ett brett spektrum av ämnen, inklusive resor, konst och kultur. Hon har också varit volontär som redaktör för djurrättsorganisationen, där hon hjälpt till att öka medvetenheten om djurskyddsfrågor. Kontakta henne på [e-postskyddad].