Laporan Berita Teknologi
Mac 15, 2023

GPT-4 Boleh Mengendalikan Permintaan Anda untuk Imej, Dokumen, Gambar rajah dan Tangkapan Skrin

Secara ringkas

GPT-4 boleh mengendalikan permintaan untuk imej, dokumen, rajah dan tangkapan skrin. Ia adalah penambahbaikan GPT-3, yang hanya mengendalikan teks.

GPT-4 mempunyai prestasi unggul dalam pelbagai peperiksaan dan ujian serta boleh mengakses maklumat dan butiran tambahan melalui imej yang mungkin tidak tersedia dalam bentuk bertulis.

gpt-4 imej dokumen tangkapan skrin

OpenAIPencapaian terbaharu, model baharu GPT-4, boleh menerima permintaan yang menyertakan imej, dokumen dengan teks, gambar rajah atau tangkapan skrin sebagai input. Ini menunjukkan peningkatan yang ketara berbanding versi sebelumnya, GPT-3, yang hanya boleh memahami dan mengeluarkan teks. Dengan ciri baharu ini, GPT-4 menjana output teks yang diberi input yang terdiri daripada teks dan imej berselang-seli.

“Melalui pelbagai domain—termasuk dokumen dengan teks dan gambar, gambar rajah atau tangkapan skrin—GPT-4 mempamerkan keupayaan yang sama seperti pada input teks sahaja,"

OpenAI Menulis.

ChatGPT-4 mempunyai saiz yang lebih besar daripada pendahulunya, menunjukkan bahawa ia telah menjalani latihan pada jumlah data yang lebih besar dan mengandungi lebih banyak pemberat dalam fail modelnya, menyebabkan kos yang lebih tinggi untuk operasinya. Bahasa AI terbaharu boleh menjana teks seperti manusia dengan menggunakan pembelajaran mendalam dan dilatih terlebih dahulu pada set data yang besar.

GPT-4 mempunyai menunjukkan prestasi unggul berbanding bahasa AI yang lain dalam pelbagai peperiksaan dan ujian sebahagiannya disebabkan oleh keupayaannya untuk mengakses maklumat dan butiran tambahan melalui imej yang mungkin tidak tersedia dalam bentuk bertulis.

Baru GPT-4 model boleh memberitahu anda apa sebenarnya yang digambarkan dalam ilustrasi, menganalisisnya, dan juga menerangkan maksudnya. Dalam demo itu, GPT-4 menjelaskan jenaka visual di mana kabel VGA disambungkan ke iPhone. Ia juga boleh menerangkan perkara yang luar biasa dalam gambar yang memaparkan "menyeterika melampau", yang boleh anda lihat di bawah.

gpt-4 imej
sumber: OpenAI

Walau bagaimanapun, terdapat juga implikasi yang lebih berguna untuk GPT-4pengetahuan yang baru ditemui. Dalam pembentangan, ditunjukkan bahawa PGT-4 boleh memberitahu apa yang boleh dimasak daripada bahan-bahan yang ditunjukkan dalam gambar. Ini bermakna model boleh membantu anda memasak jika anda mempunyai produk makanan dan tidak tahu apa yang perlu dilakukan dengan produk tersebut. Ambil gambar makanan yang anda ada, dan Sembang-GPT boleh memberitahu anda apa yang anda boleh sediakan daripada bahan-bahan yang anda ada di rumah.

Keupayaan untuk memahami dan mentafsir maklumat visual ini membuat GPT-4 alat yang berkuasa untuk tugas seperti kapsyen imej, menjawab soalan visual dan juga penciptaan kandungan. Dengan integrasi kedua-dua teks dan pemahaman visual, GPT-4 mempunyai potensi untuk merevolusikan pelbagai industri, seperti pengiklanan, reka bentuk, dan e-dagang, dan membantu orang ramai melakukan tugas biasa yang membosankan untuk mereka.

Maju model bahasa juga 'memahami' tangkapan skrin dan dokumen dengan teks, jadual, gambar rajah atau perwakilan visual yang lain. Sebagai contoh, jika anda memuat naik kertas penyelidikan tiga muka surat dan memerlukannya diringkaskan dan dijelaskan, GPT-4 mampu berbuat demikian. 

Penasihat Bloomberg Jon Erlichman menunjukkan bagaimana dia dapat mengubah reka bentuk lakaran tangan menjadi laman web yang berfungsi.

Teknologi baharu ini juga boleh digunakan sebagai bantuan mobiliti kerana ia boleh digunakan untuk menggambarkan persekitaran bagi orang cacat penglihatan. Untuk tujuan ini, Open AI telah pun bekerjasama dengan aplikasi yang dipanggil Jadilah mata saya yang telah direka untuk memberi bantuan kepada orang buta apabila mereka perlu melihat sesuatu, contohnya, semasa membeli-belah runcit. Aplikasi ini membolehkan "sukarelawan dan profesional yang rabun meminjamkan mata mereka untuk menyelesaikan tugas besar dan kecil untuk membantu orang buta dan rabun menjalani kehidupan yang lebih bebas." Kini, ia juga menawarkan alat sukarelawan maya yang dikuasakan oleh OpenAI's GPT-4.

Walaupun OpenAI's GPT-4 kini menawarkan keupayaan untuk memproses teks dan imej sebagai input, model ini belum lagi dilengkapi untuk mengendalikan input audio dan video. Namun begitu, terdapat tanda-tanda bahawa modaliti ini mungkin dimasukkan dalam lelaran teknologi seterusnya.

Baca lebih lanjut:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Agne ialah seorang wartawan yang membuat liputan tentang trend dan perkembangan terkini dalam metaverse, AI, dan Web3 industri untuk Metaverse Post. Keghairahannya untuk bercerita telah menyebabkan dia menjalankan banyak temu bual dengan pakar dalam bidang ini, sentiasa berusaha untuk mendedahkan cerita yang menarik dan menarik. Agne memegang ijazah Sarjana Muda dalam kesusasteraan dan mempunyai latar belakang yang luas dalam penulisan tentang pelbagai topik termasuk perjalanan, seni dan budaya. Dia juga menawarkan diri sebagai editor untuk organisasi hak haiwan, di mana dia membantu meningkatkan kesedaran tentang isu kebajikan haiwan. Hubungi dia [e-mel dilindungi].

lebih banyak artikel
Agne Cimerman
Agne Cimerman

Agne ialah seorang wartawan yang membuat liputan tentang trend dan perkembangan terkini dalam metaverse, AI, dan Web3 industri untuk Metaverse Post. Keghairahannya untuk bercerita telah menyebabkan dia menjalankan banyak temu bual dengan pakar dalam bidang ini, sentiasa berusaha untuk mendedahkan cerita yang menarik dan menarik. Agne memegang ijazah Sarjana Muda dalam kesusasteraan dan mempunyai latar belakang yang luas dalam penulisan tentang pelbagai topik termasuk perjalanan, seni dan budaya. Dia juga menawarkan diri sebagai editor untuk organisasi hak haiwan, di mana dia membantu meningkatkan kesedaran tentang isu kebajikan haiwan. Hubungi dia [e-mel dilindungi].

Hot Stories
Sertai Surat Berita Kami.
Berita Terkini

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut

Pengasas Samourai Wallet Dituduh Memudahkan $2B dalam Tawaran Darknet

Kebimbangan pengasas Samourai Wallet mewakili kemunduran yang ketara bagi industri, menekankan ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
AI Renaissance dalam Pembangunan Permainan pada tahun 2024
AI Wiki Metaverse Wiki Pendidikan pasaran perisian Teknologi
AI Renaissance dalam Pembangunan Permainan pada tahun 2024
Semoga 1, 2024
Di dalam Makmal Inovasi AI Baharu Estée Lauder: Pandangan Lebih Dekat Bagaimana AI Generatif Mengubah Jenama Kecantikan
Gaya hidup perisian Cerita dan Ulasan Teknologi
Di dalam Makmal Inovasi AI Baharu Estée Lauder: Pandangan Lebih Dekat Bagaimana AI Generatif Mengubah Jenama Kecantikan
Semoga 1, 2024
Chainlink Dan Penambahan Rapid Bekerjasama Untuk Membangunkan Penyesuai Rantaian Blok Berasaskan CCIP
Perniagaan Laporan Berita Teknologi
Chainlink Dan Penambahan Rapid Bekerjasama Untuk Membangunkan Penyesuai Rantaian Blok Berasaskan CCIP
Semoga 1, 2024
BitSmiley Melancarkan Alphanet V1, Debut Pada Bitcoin Layer 2 Network Bitlayer
Laporan Berita Teknologi
BitSmiley Melancarkan Alphanet V1, Debut Pada Bitcoin Layer 2 Network Bitlayer
Semoga 1, 2024