29 Tháng ba, 2023

GPT-4 Thực hiện tốt hơn người bình thường trong bài kiểm tra lý luận logic, các tuyên bố nghiên cứu

Được xuất bản: ngày 29 tháng 2023 năm 3 lúc 55 giờ sáng Cập nhật: ngày 29 tháng 2023 năm 3 lúc 55 giờ sáng

Tóm lại

Ilya Pestov, một nhà nghiên cứu AI người Nga, đã tạo ra bài kiểm tra tư duy logic, được 12 nghìn người vượt qua.

Gần đây anh ấy đã có được quyền truy cập vào thông minh hơn GPT-4và tiến hành thử nghiệm để xem liệu truy vấn đúng có thể mang lại một số kết quả hay không.

Kết quả cho thấy GPT-4 giỏi hơn người bình thường về khả năng suy luận logic.

Ilya Pestov, một nhà nghiên cứu AI nổi tiếng của Nga, đã đăng một thông điệp trên trang cá nhân của mình. Kênh Telegram về việc mạng thần kinh xử lý các bài kiểm tra logic tốt như thế nào. Ilya đã từng tạo ra @psylogicbot bài kiểm tra tư duy logic, được thực hiện bởi khoảng 12 nghìn người. Bạn có thể kiểm tra số liệu thống kê sau khi làm bài kiểm tra.

Tìm hiểu thêm: Hơn 20 Chatbot AI Telegram tốt nhất năm 2023

Anh ấy đã viết rằng ChatGPT cũng đã được thử nghiệm, nhưng kết quả còn rất nhiều điều đáng mong đợi. Gần đây anh ấy đã có quyền truy cập vào phiên bản thông minh hơn và cập nhật hơn của GPT người mẫu-GPT-4—và quyết định kiểm tra xem liệu nó có nhận được kết quả tương tự hay không.

Thí nghiệm được tiến hành như sau: Nhà nghiên cứu tạo ra một văn bản mô tả nhiệm vụ mà mạng thần kinh phải hoàn thành. Nhà nghiên cứu đã đăng mọi thứ trong phần bình luận: Lời nhắc là: “Tôi sẽ đưa cho bạn một câu đố logic và bốn câu trả lời khả thi; chọn một câu trả lời đúng từ họ.” Sau đó, với mỗi câu hỏi kiểm tra, Ilya tạo một hộp thoại mới và gửi GPT-4 mô tả cùng với văn bản câu hỏi. Bot đã nhận được phản hồi mà không có bất kỳ chỉnh sửa hay gợi ý nào.

Tổng cộng có 25 câu hỏi, mỗi câu trả lời đúng được tính một điểm. Theo thống kê, người dùng đạt trung bình 13.6 điểm, với điểm trung bình không quá 14. Đã làm được bao nhiêu GPT-4 lấy? Nó đã đạt được 16 điểm!

Một lần nữa, mạng thần kinh vượt trội so với người bình thường về khả năng suy luận logic. Đó là, nó vượt trội so với phần lớn những người được thử nghiệm. Và đây là sau khi tính đến:

Thử nghiệm được thực hiện bằng tiếng Nga, trong khi mô hình được tinh chỉnh cho tiếng Anh;
GPT-4, được sử dụng trong trò chuyện, kém thông minh hơn so với người tiền nhiệm của nó (một tác dụng phụ của các hạn chế về đạo đức).

Một cách riêng biệt, chúng tôi sẽ đăng một câu trả lời xuất sắc cho câu hỏi 22, trong đó nơ-ron đã sử dụng logic bậc nhất để rút ra kết quả về mặt toán học. Mặc dù điều này được đề cập đến trong toán học ứng dụng, nhưng nó không phải là một khóa học đại học mà mọi người đều tham gia.

Một cách riêng biệt, chúng tôi sẽ đăng một câu trả lời xuất sắc cho câu hỏi 22, trong đó nơ-ron đã sử dụng logic bậc nhất để rút ra kết quả về mặt toán học. Tất cả chúng tôi đều biết cách làm điều đó trong toán học ứng dụng, nhưng đó là một khóa học bổ sung ở trường đại học.

Vẫn tin rằng mạng thần kinh là một mốt nhất thời? Đầu tiên, hãy cố gắng vượt trội GPT-4 (và chia sẻ kết quả của bạn trong phần bình luận).

Đọc thêm về AI:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov