Nachrichtenbericht Technologie
15. März 2023

GPT-4 Kann Ihre Anfragen nach Bildern, Dokumenten, Diagrammen und Screenshots bearbeiten

In Kürze

GPT-4 kann Anfragen nach Bildern, Dokumenten, Diagrammen und Screenshots bearbeiten. Es ist eine Verbesserung gegenüber GPT-3, das nur Text verarbeitete.

GPT-4 weist bei verschiedenen Prüfungen und Tests hervorragende Leistungen auf und kann durch Bilder auf zusätzliche Informationen und Details zugreifen, die möglicherweise nicht in schriftlicher Form verfügbar sind.

gpt-4 Bilder, Dokumente, Screenshots

OpenAIDer neueste Meilenstein, das neue Modell GPT-4, kann Anfragen annehmen, die Bilder, Dokumente mit Text, Diagramme oder Screenshots als Eingaben enthalten. Dies stellt eine deutliche Verbesserung gegenüber der Vorgängerversion dar, GPT-3, der nur Text verstehen und ausgeben konnte. Mit dieser neuen Funktion GPT-4 Erzeugt Textausgaben bei Eingaben, die aus eingestreutem Text und Bildern bestehen.

„In einer Reihe von Bereichen – einschließlich Dokumenten mit Text und Fotos, Diagrammen oder Screenshots –GPT-4 weist ähnliche Fähigkeiten auf wie bei Nur-Text-Eingaben“,

OpenAI schrieb.

ChatGPT-4 hat eine größere Größe als seine Vorgänger, was darauf hindeutet, dass es auf einer größeren Datenmenge trainiert wurde und mehr Gewichte in seiner Modelldatei enthält, was zu höheren Betriebskosten führt. Die neueste KI-Sprache kann mithilfe von menschenähnlichen Text erzeugen tiefe Lernen und anhand eines großen Datensatzes vorab trainiert zu werden.

GPT-4 hat zeigte eine überlegene Leistung gegenüber anderen KI-Sprachen in einer Vielzahl von Prüfungen und Tests, teilweise aufgrund seiner Fähigkeit, auf zusätzliche Informationen und Details durch Bilder zuzugreifen, die möglicherweise nicht in schriftlicher Form verfügbar sind.

The new GPT-4 Das Modell kann Ihnen sagen, was genau in der Abbildung dargestellt ist, es analysieren und sogar seine Bedeutung erklären. In der Demo GPT-4 erklärte den visuellen Witz, bei dem ein VGA-Kabel an das iPhone angeschlossen ist. Es könnte auch erklären, was an einem Bild, das „extremes Bügeln“ zeigt, ungewöhnlich ist, das Sie unten sehen können.

gpt-4 Bilder
Quelle: OpenAI

Es gibt jedoch auch nützlichere Implikationen GPT-4's neu gewonnenes Wissen. In der Präsentation wurde gezeigt, dass PGT-4 erkennen konnte, was aus den im Bild gezeigten Zutaten gekocht werden konnte. Das bedeutet, dass das Modell Ihnen beim Kochen helfen kann, wenn Sie Lebensmittel haben und keine Ahnung haben, was Sie damit machen sollen. Machen Sie einen Schnappschuss von dem Essen, das Sie haben, und chatten Sie.GPT kann Ihnen sagen, was Sie aus den Zutaten, die Sie zu Hause haben, zubereiten können.

Diese Fähigkeit, visuelle Informationen zu verstehen und zu interpretieren, macht GPT-4 ein leistungsstarkes Tool für Aufgaben wie Bildunterschriften, visuelle Beantwortung von Fragen und sogar die Erstellung von Inhalten. Durch die Integration von Text- und visuellem Verständnis, GPT-4 hat das Potenzial, verschiedene Branchen wie Werbung, Design und E-Commerce zu revolutionieren und Menschen dabei zu helfen, langweilige, alltägliche Aufgaben für sie zu erledigen.

Das fortschrittliche Sprachmodell „versteht“ auch Screenshots und Dokumente mit Text, Tabellen, Diagrammen oder anderen visuellen Darstellungen. Wenn Sie beispielsweise eine dreiseitige Forschungsarbeit hochladen und eine Zusammenfassung und Erläuterung benötigen, GPT-4 ist dazu in der Lage. 

Bloombergs Moderator Jon Erlichman demonstrierte, wie er ein handgezeichnetes Design in eine funktionale Website umwandeln konnte.

Die neue Technologie kann auch als Mobilitätshilfe verwendet werden, da sie zur Beschreibung der Umgebung für sehbehinderte Menschen verwendet werden könnte. Zu diesem Zweck hat Open AI bereits eine Partnerschaft mit einer Anwendung namens Sei meine Augen Es wurde entwickelt, um blinden Menschen eine helfende Hand zu geben, wenn sie beispielsweise beim Lebensmitteleinkauf einen Blick auf etwas werfen müssen. Die App ermöglicht es „sehenden Freiwilligen und Fachleuten, ihre Augen zu leihen, um große und kleine Aufgaben zu lösen und blinden und sehbehinderten Menschen dabei zu helfen, ein unabhängigeres Leben zu führen.“ Jetzt bietet es auch ein virtuelles Freiwilligentool powered by OpenAI GPT-4.

Obwohl OpenAI GPT-4 Bietet derzeit die Möglichkeit, Text und Bilder als Eingaben zu verarbeiten, das Modell ist jedoch noch nicht für die Verarbeitung von Audio- und Videoeingaben ausgestattet. Dennoch gibt es Hinweise darauf, dass diese Modalitäten in der nächsten Iteration der Technologie enthalten sein könnten.

Mehr lesen:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Agne ist eine Journalistin, die über die neuesten Trends und Entwicklungen im Metaversum, in der KI und anderen Bereichen berichtet Web3 Branchen für die Metaverse Post. Ihre Leidenschaft für das Geschichtenerzählen hat sie dazu geführt, zahlreiche Interviews mit Experten auf diesen Gebieten zu führen, immer auf der Suche nach spannenden und fesselnden Geschichten. Agne hat einen Bachelor-Abschluss in Literatur und verfügt über umfangreiche Erfahrung im Schreiben über ein breites Themenspektrum, darunter Reisen, Kunst und Kultur. Sie war außerdem ehrenamtlich als Redakteurin für die Tierrechtsorganisation tätig und half dabei, das Bewusstsein für Tierschutzthemen zu schärfen. Kontaktieren Sie sie unter [E-Mail geschützt] .

Weitere Artikel
Agne Cimerman
Agne Cimerman

Agne ist eine Journalistin, die über die neuesten Trends und Entwicklungen im Metaversum, in der KI und anderen Bereichen berichtet Web3 Branchen für die Metaverse Post. Ihre Leidenschaft für das Geschichtenerzählen hat sie dazu geführt, zahlreiche Interviews mit Experten auf diesen Gebieten zu führen, immer auf der Suche nach spannenden und fesselnden Geschichten. Agne hat einen Bachelor-Abschluss in Literatur und verfügt über umfangreiche Erfahrung im Schreiben über ein breites Themenspektrum, darunter Reisen, Kunst und Kultur. Sie war außerdem ehrenamtlich als Redakteurin für die Tierrechtsorganisation tätig und half dabei, das Bewusstsein für Tierschutzthemen zu schärfen. Kontaktieren Sie sie unter [E-Mail geschützt] .

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen

Den Gründern von Samourai Wallet wird vorgeworfen, Darknet-Deals im Wert von 2 Milliarden US-Dollar ermöglicht zu haben

Die Besorgnis der Samourai Wallet-Gründer stellt einen bemerkenswerten Rückschlag für die Branche dar und unterstreicht die anhaltende ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Ankr arbeitet mit der KI-Blockchain-Plattform Talus Network zusammen, um Bitcoin-Liquidität für KI freizugeben
Geschäft Nachrichtenbericht Technologie
Ankr arbeitet mit der KI-Blockchain-Plattform Talus Network zusammen, um Bitcoin-Liquidität für KI freizugeben
1. Mai 2024
Binance Labs unterstützt Movement Labs, um Facebooks Move-Integration über Blockchains hinweg zu erleichtern
Geschäft Nachrichtenbericht Technologie
Binance Labs unterstützt Movement Labs, um Facebooks Move-Integration über Blockchains hinweg zu erleichtern
1. Mai 2024
Die BRICS-Nationen haben eine Lösung für den Handel mit stabilen Münzen im Auge
Geschäft Märkte Geschichten und Rezensionen Technologie
Die BRICS-Nationen haben eine Lösung für den Handel mit stabilen Münzen im Auge
1. Mai 2024
Das Bitcoin L2-Netzwerk BOB lässt sich für erweiterte Funktionalität in LayerZero integrieren
Geschäft Nachrichtenbericht Technologie
Das Bitcoin L2-Netzwerk BOB lässt sich für erweiterte Funktionalität in LayerZero integrieren
1. Mai 2024