GPT-4Thành tích của trong Kỳ thi Luật sư Hoa Kỳ mâu thuẫn với tuyên bố của nó
Tóm lại
Việc kiểm tra GPT-4Hiệu suất của trong Bài kiểm tra Thanh thống nhất cho thấy sự khác biệt giữa hiệu suất ước tính và thực tế, nhấn mạnh tầm quan trọng của quy trình đánh giá minh bạch và dữ liệu có thể truy cập được.
OpenAI được khuyến khích giải quyết những khác biệt và phát triển một cách tiếp cận toàn diện và đáng tin cậy hơn để đánh giá mô hình AI nhằm đạt được niềm tin và đảm bảo độ tin cậy.
Trong một cuộc kiểm tra gần đây của GPT-4thành tích của trong Kỳ thi thanh thống nhất (EBU), đã nảy sinh nghi ngờ về tính chính xác của OpenAItuyên bố của về tỷ lệ thành công của mô hình. Ngược lại với khẳng định ban đầu rằng GPT-4 vượt trội hơn 90% cá nhân, các phát hiện cho thấy có sự khác biệt đáng kể giữa hiệu suất ước tính và thực tế của mô hình AI. Tiết lộ này nhấn mạnh tầm quan trọng của các quy trình đánh giá minh bạch và dữ liệu có thể truy cập được để xác thực các tuyên bố đó.
Cuộc kiểm tra tập trung vào nhiều yếu tố khác nhau để xác định năng lực thực sự của GPT-4. Thứ nhất, phân tích của kỳ thi tháng hai ở Illinois tiết lộ rằng GPT-4điểm số của nó đã tiệm cận Phân vị thứ 90. Tuy nhiên, người ta quan sát thấy rằng những điểm số này bị ảnh hưởng nặng nề bởi những người thi lại trước đó đã trượt kỳ thi tháng XNUMX và do đó đạt điểm dưới mức trung bình chung.
Hơn nữa, kết quả của kỳ thi tháng bảy mâu thuẫn OpenAItuyên bố của, tiết lộ rằng GPT-4 sẽ chỉ Vượt trội hơn 68% số người và 48% bài luận. GPT-4Hiệu suất của bài thi so với những người dự thi lần đầu (không bao gồm việc thi lại) được đánh giá ở phân vị thứ 63 khi dữ liệu chính thức từ một số bài kiểm tra ở các giai đoạn khác nhau được xem xét, với các bài luận đạt điểm thấp hơn đáng kể ở phân vị thứ 41.
Một góc nhìn bổ sung đã đạt được bằng cách kiểm tra hiệu suất của những người đã vượt qua kỳ thi, bao gồm cả những cá nhân được cấp phép và những người đang chờ cấp giấy phép. Về vấn đề này, GPT-4Thành tích tổng thể của anh được xếp hạng ở phân vị thứ 48, với các bài luận thậm chí còn tệ hơn ở phân vị thứ 15.
Mặc dù những phát hiện này gây rắc rối nhưng điều quan trọng là phải xem xét khả năng xảy ra sai sót của con người trong quá trình xem xét. Tác giả của bài viết nhấn mạnh tầm quan trọng của việc hiểu mẫu được các nhà nghiên cứu sử dụng để đánh giá GPT-4hiệu suất của. Việc thiếu dữ liệu chính thức, đặc biệt là ở dạng tổng hợp, khiến cho việc so sánh và đánh giá một cách công bằng các phần trăm trở nên khó khăn. Việc thiết lập các kỹ thuật đánh giá rõ ràng và dễ tiếp cận để tất cả các bên liên quan có thể đánh giá được là rất quan trọng.
Trước những lo ngại này, OpenAI được yêu cầu giải quyết những khác biệt và cung cấp thêm thông tin chi tiết vào quá trình đánh giá. Tính minh bạch và cởi mở là điều cần thiết để đạt được sự tin tưởng và đảm bảo độ tin cậy của các mô hình AI trong các lĩnh vực có tính rủi ro cao như luật pháp.
Cần lưu ý rằng bài viết không đề cập đến số điểm cụ thể đạt được của GPT-4, được báo cáo là 298. Việc đánh giá tầm quan trọng của điểm này đòi hỏi sự hiểu biết theo ngữ cảnh về hệ thống chấm điểm được sử dụng. Giống như một đứa trẻ đi học về với điểm B có thể là nguyên nhân để ăn mừng hoặc thất vọng, việc giải thích về GPT-4điểm của phụ thuộc vào thang đo được sử dụng.
Đánh giá của GPT-4thành tích của trong kỳ thi thanh gây lo ngại nghiêm trọng về tính xác thực của OpenAInhững khẳng định ban đầu của Khoảng cách giữa hiệu suất ước tính và thực tế nhấn mạnh tầm quan trọng của hệ thống đánh giá rõ ràng và dữ liệu dễ tiếp cận. OpenAI được khuyến khích giải quyết những thách thức này và phát triển một cách toàn diện hơn và cách tiếp cận đáng tin cậy với AI đánh giá mô hình.
Đọc thêm về AI:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.