Rapport de nouvelles Technologie
15 mars 2023

GPT-4 Peut gérer vos demandes d'images, de documents, de diagrammes et de captures d'écran

En bref

GPT-4 peut gérer les demandes d’images, de documents, de diagrammes et de captures d’écran. C'est une amélioration par rapport à GPT-3, qui ne gérait que le texte.

GPT-4 a des performances supérieures dans divers examens et tests et peut accéder à des informations et des détails supplémentaires via des images qui peuvent ne pas être disponibles sous forme écrite.

gpt-4 images documents captures d'écran

OpenAIdernier jalon, le nouveau modèle GPT-4, peut accepter des demandes incluant des images, des documents avec du texte, des diagrammes ou des captures d'écran en entrée. Cela représente une amélioration significative par rapport à la version précédente, GPT-3, qui ne pouvait comprendre et afficher que du texte. Avec cette nouvelle fonctionnalité, GPT-4 génère des sorties de texte à partir d'entrées composées de texte et d'images entrecoupées.

« Dans une gamme de domaines, y compris les documents contenant du texte et des photographies, des diagrammes ou des captures d'écran –GPT-4 présente des capacités similaires à celles des entrées de texte uniquement »,

OpenAI a écrit.

ChatGPT-4 a une taille plus grande que ses prédécesseurs, ce qui indique qu'il a suivi une formation sur une plus grande quantité de données et qu'il contient plus de poids dans son fichier modèle, ce qui entraîne un coût de fonctionnement plus élevé. Le langage d'IA le plus récent peut générer du texte de type humain en utilisant l'apprentissage en profondeur et être pré-formé sur un grand ensemble de données.

GPT-4 a performances supérieures démontrées par rapport aux autres langages d'IA dans une variété d'examens et de tests en partie en raison de sa capacité à accéder à des informations et des détails supplémentaires par le biais d'images qui peuvent ne pas être disponibles sous forme écrite.

Le nouveau système d’ GPT-4 Le modèle peut vous dire exactement ce qui est représenté dans l’illustration, l’analyser et même expliquer sa signification. Dans la démo, GPT-4 a expliqué la blague visuelle où un câble VGA est connecté à l'iPhone. Cela pourrait également expliquer ce qui est inhabituel dans une image présentant un « repassage extrême », que vous pouvez consulter ci-dessous.

gpt-4 satellite
La source: OpenAI

Cependant, il y a aussi des implications plus utiles à GPT-4les nouvelles connaissances de Dans la présentation, il a été montré que PGT-4 pouvait déterminer ce qui pouvait être cuit à partir des ingrédients montrés sur l'image. Cela signifie que le modèle peut vous aider à cuisiner si vous avez des produits alimentaires et que vous ne savez pas quoi en faire. Prenez un instantané de la nourriture que vous avez et discutez-GPT peut vous dire ce que vous pouvez préparer à partir des ingrédients que vous avez à la maison.

Cette capacité à comprendre et à interpréter des informations visuelles rend GPT-4 un outil puissant pour des tâches telles que le sous-titrage d'images, la réponse visuelle aux questions et même la création de contenu. Avec l'intégration de la compréhension textuelle et visuelle, GPT-4 a le potentiel de révolutionner divers secteurs, tels que la publicité, le design et le commerce électronique, et d’aider les gens à effectuer les tâches ennuyeuses et banales à leur place.

L'avancée modèle de langage « comprend » également les captures d'écran et les documents contenant du texte, des tableaux, des diagrammes ou d'autres représentations visuelles. Par exemple, si vous téléchargez un document de recherche de trois pages et que vous avez besoin qu'il soit résumé et expliqué, GPT-4 est capable de le faire. 

L'ancre de Bloomberg, Jon Erlichman, a démontré comment il était capable de transformer une conception dessinée à la main en un site Web fonctionnel.

La nouvelle technologie peut également être utilisée comme aide à la mobilité car elle pourrait être utilisée pour décrire l'environnement des personnes malvoyantes. À cette fin, Open AI s'est déjà associé à une application appelée Sois mes yeux qui a été conçu pour donner un coup de main aux personnes aveugles lorsqu'elles ont besoin de jeter un coup d'œil à quelque chose, par exemple lorsqu'elles font leurs courses. L'application permet aux «bénévoles et professionnels voyants de prêter leurs yeux pour résoudre des tâches grandes et petites afin d'aider les personnes aveugles et malvoyantes à mener une vie plus indépendante». Maintenant, il offre également un outil de bénévolat virtuel alimenté par OpenAI's GPT-4.

Bien que OpenAI's GPT-4 offre actuellement la possibilité de traiter du texte et des images comme entrées, le modèle n'est pas encore équipé pour gérer les entrées audio et vidéo. Néanmoins, certains éléments indiquent que ces modalités pourraient être incluses dans la prochaine itération de la technologie.

Lire la suite:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Agne est une journaliste qui couvre les dernières tendances et développements dans le métaverse, l'IA et Web3 industries pour la Metaverse Post. Sa passion pour la narration l'a amenée à mener de nombreux entretiens avec des experts dans ces domaines, cherchant toujours à découvrir des histoires passionnantes et engageantes. Agne est titulaire d'un baccalauréat en littérature et possède une vaste expérience en rédaction sur un large éventail de sujets, notamment les voyages, l'art et la culture. Elle s'est également portée volontaire en tant que rédactrice pour une organisation de défense des droits des animaux, où elle a contribué à sensibiliser les gens aux problèmes de bien-être animal. Contactez-la au [email protected].

Plus d'articles
Agne Cimerman
Agne Cimerman

Agne est une journaliste qui couvre les dernières tendances et développements dans le métaverse, l'IA et Web3 industries pour la Metaverse Post. Sa passion pour la narration l'a amenée à mener de nombreux entretiens avec des experts dans ces domaines, cherchant toujours à découvrir des histoires passionnantes et engageantes. Agne est titulaire d'un baccalauréat en littérature et possède une vaste expérience en rédaction sur un large éventail de sujets, notamment les voyages, l'art et la culture. Elle s'est également portée volontaire en tant que rédactrice pour une organisation de défense des droits des animaux, où elle a contribué à sensibiliser les gens aux problèmes de bien-être animal. Contactez-la au [email protected].

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus

Les fondateurs de Samourai Wallet accusés d'avoir facilité 2 milliards de dollars de transactions sur le Darknet

L'appréhension des fondateurs de Samourai Wallet représente un revers notable pour l'industrie, soulignant la persistance...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Ankr collabore avec le réseau Talus de la plate-forme AI Blockchain pour débloquer la liquidité Bitcoin pour l'IA
La Brochure Rapport de nouvelles Technologie
Ankr collabore avec le réseau Talus de la plate-forme AI Blockchain pour débloquer la liquidité Bitcoin pour l'IA
1 mai 2024
Binance Labs soutient Movement Labs pour faciliter l'intégration de Facebook à travers les blockchains
La Brochure Rapport de nouvelles Technologie
Binance Labs soutient Movement Labs pour faciliter l'intégration de Facebook à travers les blockchains
1 mai 2024
Les nations BRICS envisagent une solution commerciale stable
La Brochure Marchés Histoires et critiques Technologie
Les nations BRICS envisagent une solution commerciale stable
1 mai 2024
Le réseau Bitcoin L2 BOB s'intègre à LayerZero pour une fonctionnalité améliorée
La Brochure Rapport de nouvelles Technologie
Le réseau Bitcoin L2 BOB s'intègre à LayerZero pour une fonctionnalité améliorée
1 mai 2024
CRYPTOMERIA LABS PTE. LTD.