Báo cáo tin tức Công nghệ
15 Tháng ba, 2023

GPT-4 Có thể xử lý các yêu cầu của bạn về hình ảnh, tài liệu, sơ đồ và ảnh chụp màn hình

Tóm lại

GPT-4 có thể xử lý các yêu cầu về hình ảnh, tài liệu, sơ đồ và ảnh chụp màn hình. Đó là một sự cải tiến GPT-3, chỉ xử lý văn bản.

GPT-4 có thành tích vượt trội trong các kỳ thi và bài kiểm tra khác nhau, đồng thời có thể truy cập thông tin và chi tiết bổ sung thông qua các hình ảnh có thể không có ở dạng văn bản.

gpt-4 hình ảnh tài liệu ảnh chụp màn hình

OpenAIcột mốc mới nhất của, mô hình mới GPT-4, có thể chấp nhận các yêu cầu bao gồm hình ảnh, tài liệu có văn bản, sơ đồ hoặc ảnh chụp màn hình làm đầu vào. Điều này thể hiện sự cải tiến đáng kể so với phiên bản trước, GPT-3, chỉ có thể hiểu và xuất văn bản. Với tính năng mới này, GPT-4 tạo đầu ra văn bản cho đầu vào bao gồm văn bản và hình ảnh xen kẽ.

“Trên nhiều miền—bao gồm các tài liệu có văn bản và ảnh, sơ đồ hoặc ảnh chụp màn hình—GPT-4 thể hiện các khả năng tương tự như trên các đầu vào chỉ có văn bản,”

OpenAI Đã viết.

ChatGPT-4 có kích thước lớn hơn so với các phiên bản trước, cho thấy rằng nó đã trải qua quá trình đào tạo trên lượng dữ liệu lớn hơn và chứa nhiều trọng số hơn trong tệp mô hình, dẫn đến chi phí vận hành cao hơn. Ngôn ngữ AI mới nhất có thể tạo ra văn bản giống con người bằng cách sử dụng học kĩ càng và được đào tạo trước trên một tập dữ liệu lớn.

GPT-4 có thể hiện hiệu suất vượt trội so với các ngôn ngữ AI khác trong nhiều kỳ thi và bài kiểm tra một phần nhờ vào khả năng truy cập thông tin và chi tiết bổ sung thông qua hình ảnh có thể không có sẵn ở dạng viết.

Mới GPT-4 mô hình có thể cho bạn biết chính xác những gì được mô tả trong hình minh họa, phân tích và thậm chí giải thích ý nghĩa của nó. Trong bản trình diễn, GPT-4 giải thích trò đùa trực quan trong đó cáp VGA được kết nối với iPhone. Nó cũng có thể giải thích điều gì bất thường trong bức ảnh thể hiện “ủi quá mức”, bạn có thể xem bên dưới.

gpt-4 hình ảnh
nguồn: OpenAI

Tuy nhiên, cũng có nhiều ý nghĩa hữu ích hơn đối với GPT-4những kiến ​​thức mới tìm được. Trong phần trình bày, PGT-4 có thể cho biết những gì có thể nấu được từ các nguyên liệu trong hình. Điều này có nghĩa là mô hình có thể giúp bạn nấu ăn nếu bạn có các sản phẩm thực phẩm và không biết phải làm gì với chúng. Chụp ảnh nhanh món ăn bạn có và Trò chuyện-GPT có thể cho bạn biết bạn có thể chuẩn bị những gì từ những nguyên liệu có sẵn ở nhà.

Khả năng hiểu và giải thích thông tin hình ảnh này làm cho GPT-4 một công cụ mạnh mẽ cho các tác vụ như chú thích hình ảnh, trả lời câu hỏi trực quan và thậm chí cả sáng tạo nội dung. Với sự tích hợp của cả sự hiểu biết văn bản và hình ảnh, GPT-4 có khả năng cách mạng hóa các ngành công nghiệp khác nhau, chẳng hạn như quảng cáo, thiết kế và thương mại điện tử, đồng thời giúp mọi người thực hiện những công việc nhàm chán, trần tục cho họ.

Tiên tiến mô hình ngôn ngữ cũng 'hiểu' ảnh chụp màn hình và tài liệu có văn bản, bảng, sơ đồ hoặc các cách trình bày trực quan khác. Ví dụ: nếu bạn tải lên một bài nghiên cứu dài ba trang và cần nó được tóm tắt và giải thích, GPT-4 có khả năng làm như vậy. 

Người dẫn chương trình của Bloomberg, Jon Erlichman, đã trình diễn cách anh ấy có thể biến một thiết kế được phác thảo bằng tay thành một trang web có chức năng.

Công nghệ mới cũng có thể được sử dụng như một công cụ hỗ trợ di chuyển vì nó có thể được sử dụng để mô tả môi trường cho người khiếm thị. Để đạt được điều này, Open AI đã hợp tác với một ứng dụng có tên Hãy là đôi mắt của tôi được thiết kế để giúp người mù một tay khi họ cần xem thứ gì đó, chẳng hạn như khi đi mua hàng tạp hóa. Ứng dụng này cho phép “các tình nguyện viên và chuyên gia sáng mắt cho mượn đôi mắt của họ để giải quyết các nhiệm vụ lớn và nhỏ nhằm hỗ trợ những người mù và thị lực kém có cuộc sống độc lập hơn.” Giờ đây, nó cũng cung cấp một công cụ tình nguyện ảo được cung cấp bởi OpenAI'S GPT-4.

Mặc dù OpenAI'S GPT-4 hiện cung cấp khả năng xử lý văn bản và hình ảnh làm đầu vào, model này chưa được trang bị để xử lý đầu vào âm thanh và video. Tuy nhiên, có những dấu hiệu cho thấy các phương thức này có thể được đưa vào phiên bản tiếp theo của công nghệ.

Tìm hiểu thêm:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Agne là một nhà báo đưa tin về các xu hướng và sự phát triển mới nhất trong metaverse, AI và Web3 các ngành công nghiệp cho Metaverse Post. Niềm đam mê kể chuyện đã khiến cô thực hiện nhiều cuộc phỏng vấn với các chuyên gia trong các lĩnh vực này, luôn tìm cách khám phá những câu chuyện thú vị và hấp dẫn. Agne có bằng Cử nhân văn học và có kiến ​​thức sâu rộng về viết về nhiều chủ đề bao gồm du lịch, nghệ thuật và văn hóa. Cô cũng tình nguyện làm biên tập viên cho tổ chức bảo vệ quyền động vật, nơi cô giúp nâng cao nhận thức về các vấn đề phúc lợi động vật. Liên hệ với cô ấy trên [email được bảo vệ].

Xem thêm bài viết
Agne Cimerman
Agne Cimerman

Agne là một nhà báo đưa tin về các xu hướng và sự phát triển mới nhất trong metaverse, AI và Web3 các ngành công nghiệp cho Metaverse Post. Niềm đam mê kể chuyện đã khiến cô thực hiện nhiều cuộc phỏng vấn với các chuyên gia trong các lĩnh vực này, luôn tìm cách khám phá những câu chuyện thú vị và hấp dẫn. Agne có bằng Cử nhân văn học và có kiến ​​thức sâu rộng về viết về nhiều chủ đề bao gồm du lịch, nghệ thuật và văn hóa. Cô cũng tình nguyện làm biên tập viên cho tổ chức bảo vệ quyền động vật, nơi cô giúp nâng cao nhận thức về các vấn đề phúc lợi động vật. Liên hệ với cô ấy trên [email được bảo vệ].

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Phục hưng AI trong phát triển trò chơi vào năm 2024
AI Wiki Metaverse Wiki Đào tạo thị trường Phần mềm Công nghệ
Phục hưng AI trong phát triển trò chơi vào năm 2024
1 Tháng Năm, 2024
Bên trong Phòng thí nghiệm đổi mới AI mới của Estée Lauder: Cái nhìn sâu hơn về cách AI sáng tạo đang biến đổi các thương hiệu làm đẹp
Phong cách sống Phần mềm Câu chuyện và đánh giá Công nghệ
Bên trong Phòng thí nghiệm đổi mới AI mới của Estée Lauder: Cái nhìn sâu hơn về cách AI sáng tạo đang biến đổi các thương hiệu làm đẹp
1 Tháng Năm, 2024
Chainlink và sự bổ sung nhanh chóng hợp tác để phát triển Bộ điều hợp chuỗi khối dựa trên CCIP
Kinh doanh Báo cáo tin tức Công nghệ
Chainlink và sự bổ sung nhanh chóng hợp tác để phát triển Bộ điều hợp chuỗi khối dựa trên CCIP
1 Tháng Năm, 2024
BitSmiley ra mắt Alphanet V1, ra mắt trên Bitlayer mạng Bitcoin lớp 2
Báo cáo tin tức Công nghệ
BitSmiley ra mắt Alphanet V1, ra mắt trên Bitlayer mạng Bitcoin lớp 2
1 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH