Báo cáo tin tức SMW Công nghệ
30 Tháng Năm, 2023

GPT-4Thành tích của trong Kỳ thi Luật sư Hoa Kỳ mâu thuẫn với tuyên bố của nó

Tóm lại

Việc kiểm tra GPT-4Hiệu suất của trong Bài kiểm tra Thanh thống nhất cho thấy sự khác biệt giữa hiệu suất ước tính và thực tế, nhấn mạnh tầm quan trọng của quy trình đánh giá minh bạch và dữ liệu có thể truy cập được.

OpenAI được khuyến khích giải quyết những khác biệt và phát triển một cách tiếp cận toàn diện và đáng tin cậy hơn để đánh giá mô hình AI nhằm đạt được niềm tin và đảm bảo độ tin cậy.

Trong một cuộc kiểm tra gần đây của GPT-4thành tích của trong Kỳ thi thanh thống nhất (EBU), đã nảy sinh nghi ngờ về tính chính xác của OpenAItuyên bố của về tỷ lệ thành công của mô hình. Ngược lại với khẳng định ban đầu rằng GPT-4 vượt trội hơn 90% cá nhân, các phát hiện cho thấy có sự khác biệt đáng kể giữa hiệu suất ước tính và thực tế của mô hình AI. Tiết lộ này nhấn mạnh tầm quan trọng của các quy trình đánh giá minh bạch và dữ liệu có thể truy cập được để xác thực các tuyên bố đó.

GPT-4Thành tích của trong Kỳ thi Luật sư Hoa Kỳ mâu thuẫn với tuyên bố của nó
@Midjourney

Cuộc kiểm tra tập trung vào nhiều yếu tố khác nhau để xác định năng lực thực sự của GPT-4. Thứ nhất, phân tích của kỳ thi tháng hai ở Illinois tiết lộ rằng GPT-4điểm số của nó đã tiệm cận Phân vị thứ 90. Tuy nhiên, người ta quan sát thấy rằng những điểm số này bị ảnh hưởng nặng nề bởi những người thi lại trước đó đã trượt kỳ thi tháng XNUMX và do đó đạt điểm dưới mức trung bình chung.

Hơn nữa, kết quả của kỳ thi tháng bảy mâu thuẫn OpenAItuyên bố của, tiết lộ rằng GPT-4 sẽ chỉ Vượt trội hơn 68% số người và 48% bài luận. GPT-4Hiệu suất của bài thi so với những người dự thi lần đầu (không bao gồm việc thi lại) được đánh giá ở phân vị thứ 63 khi dữ liệu chính thức từ một số bài kiểm tra ở các giai đoạn khác nhau được xem xét, với các bài luận đạt điểm thấp hơn đáng kể ở phân vị thứ 41.

Một góc nhìn bổ sung đã đạt được bằng cách kiểm tra hiệu suất của những người đã vượt qua kỳ thi, bao gồm cả những cá nhân được cấp phép và những người đang chờ cấp giấy phép. Về vấn đề này, GPT-4Thành tích tổng thể của anh được xếp hạng ở phân vị thứ 48, với các bài luận thậm chí còn tệ hơn ở phân vị thứ 15.

Mặc dù những phát hiện này gây rắc rối nhưng điều quan trọng là phải xem xét khả năng xảy ra sai sót của con người trong quá trình xem xét. Tác giả của bài viết nhấn mạnh tầm quan trọng của việc hiểu mẫu được các nhà nghiên cứu sử dụng để đánh giá GPT-4hiệu suất của. Việc thiếu dữ liệu chính thức, đặc biệt là ở dạng tổng hợp, khiến cho việc so sánh và đánh giá một cách công bằng các phần trăm trở nên khó khăn. Việc thiết lập các kỹ thuật đánh giá rõ ràng và dễ tiếp cận để tất cả các bên liên quan có thể đánh giá được là rất quan trọng.

Trước những lo ngại này, OpenAI được yêu cầu giải quyết những khác biệt và cung cấp thêm thông tin chi tiết vào quá trình đánh giá. Tính minh bạch và cởi mở là điều cần thiết để đạt được sự tin tưởng và đảm bảo độ tin cậy của các mô hình AI trong các lĩnh vực có tính rủi ro cao như luật pháp.

Cần lưu ý rằng bài viết không đề cập đến số điểm cụ thể đạt được của GPT-4, được báo cáo là 298. Việc đánh giá tầm quan trọng của điểm này đòi hỏi sự hiểu biết theo ngữ cảnh về hệ thống chấm điểm được sử dụng. Giống như một đứa trẻ đi học về với điểm B có thể là nguyên nhân để ăn mừng hoặc thất vọng, việc giải thích về GPT-4điểm của phụ thuộc vào thang đo được sử dụng.

Đánh giá của GPT-4thành tích của trong kỳ thi thanh gây lo ngại nghiêm trọng về tính xác thực của OpenAInhững khẳng định ban đầu của Khoảng cách giữa hiệu suất ước tính và thực tế nhấn mạnh tầm quan trọng của hệ thống đánh giá rõ ràng và dữ liệu dễ tiếp cận. OpenAI được khuyến khích giải quyết những thách thức này và phát triển một cách toàn diện hơn và cách tiếp cận đáng tin cậy với AI đánh giá mô hình.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Chainlink và sự bổ sung nhanh chóng hợp tác để phát triển Bộ điều hợp chuỗi khối dựa trên CCIP
Kinh doanh Báo cáo tin tức Công nghệ
Chainlink và sự bổ sung nhanh chóng hợp tác để phát triển Bộ điều hợp chuỗi khối dựa trên CCIP
1 Tháng Năm, 2024
BitSmiley ra mắt Alphanet V1, ra mắt trên Bitlayer mạng Bitcoin lớp 2
Báo cáo tin tức Công nghệ
BitSmiley ra mắt Alphanet V1, ra mắt trên Bitlayer mạng Bitcoin lớp 2
1 Tháng Năm, 2024
Tháng 2024 năm 141 chứng kiến ​​số vụ hack và lừa đảo ở mức thấp lịch sử, Báo cáo của CertiK giảm XNUMX% so với tháng XNUMX
thị trường Bảo mật Wiki Câu chuyện và đánh giá Công nghệ
Tháng 2024 năm 141 chứng kiến ​​số vụ hack và lừa đảo ở mức thấp lịch sử, Báo cáo của CertiK giảm XNUMX% so với tháng XNUMX
1 Tháng Năm, 2024
Giá bitcoin giảm trước thông báo quyết định lãi suất của Cục Dự trữ Liên bang, các nhà phân tích cảnh báo về sự thay đổi thị trường tiềm năng
thị trường Báo cáo tin tức Công nghệ
Giá bitcoin giảm trước thông báo quyết định lãi suất của Cục Dự trữ Liên bang, các nhà phân tích cảnh báo về sự thay đổi thị trường tiềm năng
1 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH