Nghiên cứu của Stanford xác nhận GPT-4 Đang trở nên ngu ngốc hơn
Tóm lại
Một nghiên cứu của Matei Zaharia và nhóm của ông từ Stanford và UC Berkeley đã so sánh hiệu suất của GPT-4 và ChatGPT để giải quyết những lo ngại của người dùng về hiệu quả của mô hình.
Nghiên cứu đã đánh giá các mô hình trên bốn nhiệm vụ cụ thể: toán học, mã hóa, độ nhạy và suy luận trực quan.
Matei Zaharia và nhóm của anh ấy từ Stanford và UC Berkeley tiến hành một nghiên cứu so sánh hiệu suất của GPT-4 đến ChatGPT. Cuộc điều tra này nhằm giải quyết những lo ngại của người dùng rằng tính hiệu quả của mô hình đã giảm sút.
Sản phẩm liên quan: GPT-4 vs. GPT-3: Mô hình mới có gì đặc biệt? |
Các nhà nghiên cứu đã thiết kế nghiên cứu để đánh giá các mô hình trên bốn nhiệm vụ cụ thể. Những nhiệm vụ này bao gồm:
- Toán học: Khả năng của mô hình để xác định xem một số đã cho là số nguyên tố hay hợp số.
- Viết mã: Đánh giá khả năng của mô hình để tạo mã chức năng và có ý nghĩa.
- Độ nhạy: Phân tích câu trả lời của người mẫu đối với các câu hỏi có nội dung “độc hại”.
- Suy luận trực quan: Kiểm tra khả năng của mô hình để giải quyết các vấn đề liên quan đến các mẫu trực quan, sử dụng điểm chuẩn ARC. Những người tham gia phải xác định các mẫu trong một tập hợp các hình ảnh và áp dụng chúng để giải quyết một ví dụ mới.
Trong lĩnh vực toán học, cả hai GPT-4 phiên bản phát hành tháng XNUMX và tháng XNUMX cho thấy độ chính xác nhất quán trong việc xác định số nguyên tố và số tổng hợp. Các mô hình thể hiện sự thành thạo trong việc xử lý các tính toán này, mang lại kết quả đáng tin cậy.
Chuyển sang mã hóa, GPT-4 thể hiện khả năng cải tiến trong việc tạo mã có ý nghĩa và chức năng so với các phiên bản trước. Khả năng tạo mã của mô hình cho thấy nhiều hứa hẹn, mang lại lợi ích tiềm năng cho các nhà phát triển và lập trình viên.
Về độ nhạy cảm, nghiên cứu đã đánh giá phản hồi của người mẫu đối với các câu hỏi có chứa nội dung có thể gây hại hoặc xúc phạm. GPT-4 đã thể hiện khả năng phân tích độ nhạy nâng cao và thể hiện khả năng cải thiện trong việc cung cấp phản hồi thích hợp trong những bối cảnh như vậy. Điều này biểu thị một bước tiến tích cực trong việc giải quyết những lo ngại của người dùng về các đầu ra có thể có vấn đề.
Cuối cùng, các nhiệm vụ suy luận trực quan dựa trên điểm chuẩn ARC đã được cả hai hoàn thành thành công. GPT-4 các phiên bản. Các mô hình đã xác định một cách hiệu quả các mẫu trong bộ ảnh và thể hiện khả năng áp dụng các mẫu này để giải các ví dụ mới. Điều này thể hiện khả năng hiểu biết và lý luận trực quan của họ.
ChatGPT đã chứng minh sự tăng trưởng đáng kể trong các chỉ số hiệu suất vào tháng XNUMX, cho thấy sự cải thiện đáng chú ý hơn mười lần. Mặc dù nghiên cứu không đi sâu vào các yếu tố cụ thể góp phần vào sự cải thiện này, nhưng nó nhấn mạnh ChatGPTtiến bộ trong lý luận toán học và khả năng giải quyết vấn đề.
Sản phẩm liên quan: Hơn 10 công cụ cải tiến ảnh AI tốt nhất năm 2023 |
Chất lượng của GPT-4 và ChatGPT đã bị thẩm vấn sau khi phân tích khả năng lập trình của họ. Tuy nhiên, nhìn kỹ hơn sẽ thấy một số sắc thái hấp dẫn trái ngược với ấn tượng đầu tiên.
Các tác giả đã không thực thi hoặc xác minh tính chính xác của mã; đánh giá của họ chỉ dựa trên tính hợp lệ của nó dưới dạng mã Python. Ngoài ra, các mô hình dường như đã học được một kỹ thuật tạo khung mã cụ thể bằng cách sử dụng trình trang trí, điều này vô tình cản trở việc thực thi mã.
Kết quả là, rõ ràng là không thể coi kết quả cũng như bản thân thí nghiệm là bằng chứng về sự xuống cấp của mô hình. Thay vào đó, các mô hình thể hiện một cách tiếp cận khác để tạo phản hồi, có khả năng phản ánh các biến thể trong quá trình đào tạo của họ.
Khi nói đến các tác vụ lập trình, cả hai mô hình đều cho thấy khả năng phản hồi với các lời nhắc “sai” giảm sút, với GPT-4 thể hiện sự giảm hơn bốn lần trong những trường hợp như vậy. Ngoài ra, trong nhiệm vụ Lý luận Trực quan, chất lượng phản hồi được cải thiện vài điểm phần trăm cho cả hai mô hình. Những quan sát này cho thấy sự tiến bộ hơn là sự suy giảm hiệu suất.
Tuy nhiên, việc đánh giá các kỹ năng toán học giới thiệu một yếu tố hấp dẫn. Các mô hình luôn cung cấp các số nguyên tố làm câu trả lời, cho biết câu trả lời “có” nhất quán. Tuy nhiên, khi đưa các số tổng hợp vào mẫu, rõ ràng là các mô hình đã thay đổi hành vi của chúng và bắt đầu đưa ra câu trả lời “không”, cho thấy sự không chắc chắn hơn là sự suy giảm về chất lượng. Bản thân bài kiểm tra là đặc biệt và phiến diệnvà kết quả của nó có thể là do sự thay đổi trong hành vi của mô hình hơn là sự suy giảm về chất lượng.
Điều quan trọng cần lưu ý là các phiên bản API đã được thử nghiệm chứ không phải phiên bản dựa trên trình duyệt. Mặc dù có thể các mô hình trong trình duyệt đã trải qua các điều chỉnh để tối ưu hóa tài nguyên, nhưng nghiên cứu đính kèm không defilần đầu tiên chứng minh giả thuyết này. Tác động của những thay đổi như vậy có thể so sánh với việc hạ cấp mô hình thực tế, dẫn đến những thách thức tiềm ẩn đối với người dùng dựa vào công việc cụ thể. nhắc nhở và tích lũy kinh nghiệm.
Trong trường hợp GPT-4 Các ứng dụng API, những sai lệch trong hành vi này có thể gây ra những hậu quả rõ ràng. Mã được phát triển dựa trên nhu cầu và nhiệm vụ của người dùng cụ thể có thể không còn hoạt động như dự định nếu mô hình trải qua những thay đổi trong hành vi của nó.
Người dùng nên kết hợp các phương pháp thử nghiệm tương tự vào quy trình công việc của họ. Bằng cách tạo một tập hợp lời nhắc, văn bản đi kèm và kết quả mong đợi, người dùng có thể thường xuyên kiểm tra tính nhất quán giữa mong đợi của họ và phản hồi của mô hình. Ngay khi phát hiện bất kỳ sai lệch nào, các biện pháp thích hợp có thể được thực hiện để khắc phục tình hình.
Đọc thêm về AI:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.