Raport aktualności Technologia
15 marca 2023 r.

GPT-4 Może obsłużyć Twoje prośby o obrazy, dokumenty, diagramy i zrzuty ekranu

W skrócie

GPT-4 może obsługiwać żądania dotyczące obrazów, dokumentów, diagramów i zrzutów ekranu. To już koniec poprawy GPT-3, który obsługiwał tylko tekst.

GPT-4 ma doskonałe wyniki w różnych egzaminach i testach oraz może uzyskać dostęp do dodatkowych informacji i szczegółów za pomocą obrazów, które mogą nie być dostępne w formie pisemnej.

gpt-4 obrazy dokumenty zrzuty ekranu

OpenAInajnowszy kamień milowy, nowy model GPT-4, może akceptować żądania zawierające obrazy, dokumenty z tekstem, diagramy lub zrzuty ekranu jako dane wejściowe. Stanowi to znaczną poprawę w stosunku do poprzedniej wersji, GPT-3, który mógł tylko rozumieć i wyświetlać tekst. Dzięki tej nowej funkcji GPT-4 generuje wyniki tekstowe, biorąc pod uwagę dane wejściowe składające się z przeplatanego tekstu i obrazów.

„W wielu domenach – w tym dokumenty zawierające tekst i zdjęcia, diagramy lub zrzuty ekranu –GPT-4 wykazuje podobne możliwości, jak w przypadku wprowadzania wyłącznie tekstowego”,

OpenAI napisał.

ChatGPT-4 ma większy rozmiar od swoich poprzedników, co wskazuje, że przeszedł szkolenie na większej ilości danych i zawiera więcej wag w swoim pliku modelu, co skutkuje wyższym kosztem jego działania. Najnowszy język AI może generować tekst przypominający ludzki za pomocą głęboka nauka i jest wstępnie przeszkolony na dużym zbiorze danych.

GPT-4 ma wykazał lepszą wydajność w porównaniu z innymi językami sztucznej inteligencji w różnych egzaminach i testach, częściowo ze względu na możliwość uzyskania dostępu do dodatkowych informacji i szczegółów za pomocą obrazów, które mogą nie być dostępne w formie pisemnej.

Nowa GPT-4 Model może powiedzieć, co dokładnie jest przedstawione na ilustracji, przeanalizować to, a nawet wyjaśnić jego znaczenie. W wersji demonstracyjnej GPT-4 wyjaśnił wizualny żart polegający na podłączeniu kabla VGA do iPhone'a. Może to również wyjaśniać, co jest niezwykłego w zdjęciu przedstawiającym „ekstremalne prasowanie”, które możesz sprawdzić poniżej.

gpt-4 zdjęcia
Źródło: OpenAI

Istnieją jednak również bardziej przydatne implikacje GPT-4nowo odkrytą wiedzę. W prezentacji wykazano, że PGT-4 potrafi rozpoznać, co można ugotować na podstawie pokazanych na zdjęciu składników. Oznacza to, że model może pomóc Ci w gotowaniu, jeśli masz produkty spożywcze i nie masz pojęcia, co z nimi zrobić. Zrób zdjęcie jedzenia, które masz, i porozmawiajGPT podpowie Ci, co możesz przygotować ze składników, które masz w domu.

Ta umiejętność rozumienia i interpretowania informacji wizualnych sprawia, że GPT-4 potężne narzędzie do zadań takich jak dodawanie podpisów do obrazów, odpowiadanie na pytania wizualne, a nawet tworzenie treści. Dzięki integracji rozumienia tekstu i obrazu, GPT-4 ma potencjał, aby zrewolucjonizować różne branże, takie jak reklama, projektowanie i handel elektroniczny, i pomóc ludziom wykonywać za nich nudne, przyziemne zadania.

Advanced model języka „rozumie” również zrzuty ekranu i dokumenty zawierające tekst, tabele, diagramy lub inne reprezentacje wizualne. Na przykład, jeśli prześlesz trzystronicowy artykuł naukowy i potrzebujesz jego podsumowania i wyjaśnienia, GPT-4 jest do tego zdolny. 

Prezenter Bloomberga, Jon Erlichman, zademonstrował, w jaki sposób był w stanie przekształcić ręcznie naszkicowany projekt w funkcjonalną stronę internetową.

Nowa technologia może być również wykorzystywana jako pomoc w poruszaniu się, ponieważ może być wykorzystywana do opisywania otoczenia osób niedowidzących. W tym celu Open AI nawiązało już współpracę z aplikacją o nazwie Bądź moimi oczami który został zaprojektowany, aby pomóc osobom niewidomym, gdy potrzebują na coś rzucić okiem, na przykład podczas zakupów spożywczych. Aplikacja pozwala „widzącym ochotnikom i profesjonalistom użyczać oczu do rozwiązywania dużych i małych zadań, aby pomóc osobom niewidomym i słabowidzącym prowadzić bardziej niezależne życie”. Teraz oferuje również narzędzie dla wirtualnych wolontariuszy obsługiwane przez OpenAI'S GPT-4.

Chociaż OpenAI'S GPT-4 obecnie oferuje możliwość przetwarzania tekstu i obrazów jako danych wejściowych, model nie jest jeszcze przystosowany do obsługi wejść audio i wideo. Niemniej jednak istnieją przesłanki wskazujące, że metody te można uwzględnić w kolejnej iteracji tej technologii.

Czytaj więcej:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Agne jest dziennikarką, która zajmuje się najnowszymi trendami i wydarzeniami w metaverse, sztucznej inteligencji i Web3 branże dla Metaverse Post. Jej pasja do opowiadania historii skłoniła ją do przeprowadzenia licznych wywiadów z ekspertami w tych dziedzinach, zawsze starając się odkryć ekscytujące i wciągające historie. Agne posiada tytuł licencjata z literatury i rozległe doświadczenie w pisaniu na różne tematy, w tym podróże, sztukę i kulturę. Zgłosiła się także jako wolontariuszka jako redaktorka do organizacji praw zwierząt, gdzie pomagała podnosić świadomość na temat kwestii związanych z dobrostanem zwierząt. Skontaktuj się z nią [email chroniony].

Więcej artykułów
Agnieszka Cimerman
Agnieszka Cimerman

Agne jest dziennikarką, która zajmuje się najnowszymi trendami i wydarzeniami w metaverse, sztucznej inteligencji i Web3 branże dla Metaverse Post. Jej pasja do opowiadania historii skłoniła ją do przeprowadzenia licznych wywiadów z ekspertami w tych dziedzinach, zawsze starając się odkryć ekscytujące i wciągające historie. Agne posiada tytuł licencjata z literatury i rozległe doświadczenie w pisaniu na różne tematy, w tym podróże, sztukę i kulturę. Zgłosiła się także jako wolontariuszka jako redaktorka do organizacji praw zwierząt, gdzie pomagała podnosić świadomość na temat kwestii związanych z dobrostanem zwierząt. Skontaktuj się z nią [email chroniony].

Hot Stories

Rozwiązanie handlu stabilną monetą BRICS Nations Eye

by Wiktoria Palchik
01 maja 2024 r.
Dołącz do naszego newslettera.
Najnowsze wieści

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Ankr współpracuje z platformą AI Blockchain Talus Network, aby odblokować płynność Bitcoinów dla sztucznej inteligencji
Biznes Raport aktualności Technologia
Ankr współpracuje z platformą AI Blockchain Talus Network, aby odblokować płynność Bitcoinów dla sztucznej inteligencji
1 maja 2024 r.
Binance Labs wspiera Movement Labs, aby ułatwić integrację Facebooka Move w ramach łańcuchów bloków
Biznes Raport aktualności Technologia
Binance Labs wspiera Movement Labs, aby ułatwić integrację Facebooka Move w ramach łańcuchów bloków
1 maja 2024 r.
Rozwiązanie handlu stabilną monetą BRICS Nations Eye
Biznes rynki Historie i recenzje Technologia
Rozwiązanie handlu stabilną monetą BRICS Nations Eye
1 maja 2024 r.
Bitcoin L2 Network BOB integruje się z LayerZero w celu zwiększenia funkcjonalności
Biznes Raport aktualności Technologia
Bitcoin L2 Network BOB integruje się z LayerZero w celu zwiększenia funkcjonalności
1 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.