Báo cáo tin tức Công nghệ
20 Tháng Bảy, 2023

Nghiên cứu của Stanford xác nhận GPT-4 Đang trở nên ngu ngốc hơn

Tóm lại

Một nghiên cứu của Matei Zaharia và nhóm của ông từ Stanford và UC Berkeley đã so sánh hiệu suất của GPT-4 và ChatGPT để giải quyết những lo ngại của người dùng về hiệu quả của mô hình.

Nghiên cứu đã đánh giá các mô hình trên bốn nhiệm vụ cụ thể: toán học, mã hóa, độ nhạy và suy luận trực quan.

Matei Zaharia và nhóm của anh ấy từ Stanford và UC Berkeley tiến hành một nghiên cứu so sánh hiệu suất của GPT-4 đến ChatGPT. Cuộc điều tra này nhằm giải quyết những lo ngại của người dùng rằng tính hiệu quả của mô hình đã giảm sút.

Nghiên cứu của Stanford xác nhận GPT-4 Đang trở nên ngu ngốc hơn
Tín dụng: Metaverse Post
Sản phẩm liên quan: GPT-4 vs. GPT-3: Mô hình mới có gì đặc biệt?

Các nhà nghiên cứu đã thiết kế nghiên cứu để đánh giá các mô hình trên bốn nhiệm vụ cụ thể. Những nhiệm vụ này bao gồm:

  • Toán học: Khả năng của mô hình để xác định xem một số đã cho là số nguyên tố hay hợp số.
  • Viết mã: Đánh giá khả năng của mô hình để tạo mã chức năng và có ý nghĩa.
  • Độ nhạy: Phân tích câu trả lời của người mẫu đối với các câu hỏi có nội dung “độc hại”.
  • Suy luận trực quan: Kiểm tra khả năng của mô hình để giải quyết các vấn đề liên quan đến các mẫu trực quan, sử dụng điểm chuẩn ARC. Những người tham gia phải xác định các mẫu trong một tập hợp các hình ảnh và áp dụng chúng để giải quyết một ví dụ mới.

Trong lĩnh vực toán học, cả hai GPT-4 phiên bản phát hành tháng XNUMX và tháng XNUMX cho thấy độ chính xác nhất quán trong việc xác định số nguyên tố và số tổng hợp. Các mô hình thể hiện sự thành thạo trong việc xử lý các tính toán này, mang lại kết quả đáng tin cậy.

Chuyển sang mã hóa, GPT-4 thể hiện khả năng cải tiến trong việc tạo mã có ý nghĩa và chức năng so với các phiên bản trước. Khả năng tạo mã của mô hình cho thấy nhiều hứa hẹn, mang lại lợi ích tiềm năng cho các nhà phát triển và lập trình viên.

Về độ nhạy cảm, nghiên cứu đã đánh giá phản hồi của người mẫu đối với các câu hỏi có chứa nội dung có thể gây hại hoặc xúc phạm. GPT-4 đã thể hiện khả năng phân tích độ nhạy nâng cao và thể hiện khả năng cải thiện trong việc cung cấp phản hồi thích hợp trong những bối cảnh như vậy. Điều này biểu thị một bước tiến tích cực trong việc giải quyết những lo ngại của người dùng về các đầu ra có thể có vấn đề.

Cuối cùng, các nhiệm vụ suy luận trực quan dựa trên điểm chuẩn ARC đã được cả hai hoàn thành thành công. GPT-4 các phiên bản. Các mô hình đã xác định một cách hiệu quả các mẫu trong bộ ảnh và thể hiện khả năng áp dụng các mẫu này để giải các ví dụ mới. Điều này thể hiện khả năng hiểu biết và lý luận trực quan của họ.

Kết quả chỉ ra rằng GPT-4 cho thấy độ chính xác giảm sút, chỉ có hơn 2% số câu trả lời đúng. Điều quan trọng cần lưu ý là bài kiểm tra cụ thể này chủ yếu đánh giá khả năng thu hồi dữ liệu của mô hình hơn là thể hiện khả năng toán học vốn có của nó. Nhiệm vụ xoay quanh việc thu hồi bộ nhớ vì mô hình thiếu khả năng xác thực và suy luận tính toán, đặc biệt khi nói đến số nguyên tố.

ChatGPT đã chứng minh sự tăng trưởng đáng kể trong các chỉ số hiệu suất vào tháng XNUMX, cho thấy sự cải thiện đáng chú ý hơn mười lần. Mặc dù nghiên cứu không đi sâu vào các yếu tố cụ thể góp phần vào sự cải thiện này, nhưng nó nhấn mạnh ChatGPTtiến bộ trong lý luận toán học và khả năng giải quyết vấn đề.

Nghiên cứu không đánh giá chất lượng hoặc tính chính xác của mã được tạo. Thay vào đó, các mô hình dường như thể hiện hành vi “tùy chỉnh” hơn, cung cấp các đoạn mã mà không đảm bảo tính chính xác về chức năng của chúng.
Sản phẩm liên quan: Hơn 10 công cụ cải tiến ảnh AI tốt nhất năm 2023

Chất lượng của GPT-4 và ChatGPT đã bị thẩm vấn sau khi phân tích khả năng lập trình của họ. Tuy nhiên, nhìn kỹ hơn sẽ thấy một số sắc thái hấp dẫn trái ngược với ấn tượng đầu tiên.

Các tác giả đã không thực thi hoặc xác minh tính chính xác của mã; đánh giá của họ chỉ dựa trên tính hợp lệ của nó dưới dạng mã Python. Ngoài ra, các mô hình dường như đã học được một kỹ thuật tạo khung mã cụ thể bằng cách sử dụng trình trang trí, điều này vô tình cản trở việc thực thi mã.

Kết quả là, rõ ràng là không thể coi kết quả cũng như bản thân thí nghiệm là bằng chứng về sự xuống cấp của mô hình. Thay vào đó, các mô hình thể hiện một cách tiếp cận khác để tạo phản hồi, có khả năng phản ánh các biến thể trong quá trình đào tạo của họ.

Kiểm tra khả năng lập trình và toán học của GPT-4 và ChatGPT đã làm sáng tỏ những phát hiện thú vị. Trái ngược với những giả định ban đầu, các mô hình đã thể hiện những cải tiến đáng chú ý ở một số lĩnh vực nhất định đồng thời thể hiện những thay đổi về hành vi ở những lĩnh vực khác.

Khi nói đến các tác vụ lập trình, cả hai mô hình đều cho thấy khả năng phản hồi với các lời nhắc “sai” giảm sút, với GPT-4 thể hiện sự giảm hơn bốn lần trong những trường hợp như vậy. Ngoài ra, trong nhiệm vụ Lý luận Trực quan, chất lượng phản hồi được cải thiện vài điểm phần trăm cho cả hai mô hình. Những quan sát này cho thấy sự tiến bộ hơn là sự suy giảm hiệu suất.

Tuy nhiên, việc đánh giá các kỹ năng toán học giới thiệu một yếu tố hấp dẫn. Các mô hình luôn cung cấp các số nguyên tố làm câu trả lời, cho biết câu trả lời “có” nhất quán. Tuy nhiên, khi đưa các số tổng hợp vào mẫu, rõ ràng là các mô hình đã thay đổi hành vi của chúng và bắt đầu đưa ra câu trả lời “không”, cho thấy sự không chắc chắn hơn là sự suy giảm về chất lượng. Bản thân bài kiểm tra là đặc biệt và phiến diệnvà kết quả của nó có thể là do sự thay đổi trong hành vi của mô hình hơn là sự suy giảm về chất lượng.

Điều quan trọng cần lưu ý là các phiên bản API đã được thử nghiệm chứ không phải phiên bản dựa trên trình duyệt. Mặc dù có thể các mô hình trong trình duyệt đã trải qua các điều chỉnh để tối ưu hóa tài nguyên, nhưng nghiên cứu đính kèm không defilần đầu tiên chứng minh giả thuyết này. Tác động của những thay đổi như vậy có thể so sánh với việc hạ cấp mô hình thực tế, dẫn đến những thách thức tiềm ẩn đối với người dùng dựa vào công việc cụ thể. nhắc nhở và tích lũy kinh nghiệm.

Trong trường hợp GPT-4 Các ứng dụng API, những sai lệch trong hành vi này có thể gây ra những hậu quả rõ ràng. Mã được phát triển dựa trên nhu cầu và nhiệm vụ của người dùng cụ thể có thể không còn hoạt động như dự định nếu mô hình trải qua những thay đổi trong hành vi của nó.

Người dùng nên kết hợp các phương pháp thử nghiệm tương tự vào quy trình công việc của họ. Bằng cách tạo một tập hợp lời nhắc, văn bản đi kèm và kết quả mong đợi, người dùng có thể thường xuyên kiểm tra tính nhất quán giữa mong đợi của họ và phản hồi của mô hình. Ngay khi phát hiện bất kỳ sai lệch nào, các biện pháp thích hợp có thể được thực hiện để khắc phục tình hình.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Nexo bắt đầu 'Cuộc săn lùng' thưởng cho người dùng 12 triệu USD token NEXO khi tương tác với hệ sinh thái của nó
thị trường Báo cáo tin tức Công nghệ
Nexo bắt đầu 'Cuộc săn lùng' thưởng cho người dùng 12 triệu USD token NEXO khi tương tác với hệ sinh thái của nó
8 Tháng Năm, 2024
Sàn giao dịch Revolut X của Revolut thu hút các nhà giao dịch tiền điện tử với mức phí sản xuất bằng 0 và phân tích nâng cao
thị trường Phần mềm Câu chuyện và đánh giá Công nghệ
Sàn giao dịch Revolut X của Revolut thu hút các nhà giao dịch tiền điện tử với mức phí sản xuất bằng 0 và phân tích nâng cao
8 Tháng Năm, 2024
Nền tảng giao dịch tiền điện tử BitMEX ra mắt giao dịch quyền chọn với 0 phí và ưu đãi tiền mặt
Kinh doanh thị trường Báo cáo tin tức
Nền tảng giao dịch tiền điện tử BitMEX ra mắt giao dịch quyền chọn với 0 phí và ưu đãi tiền mặt
8 Tháng Năm, 2024
Lisk chính thức chuyển sang Ethereum lớp 2 và ra mắt Core v4.0.6
Báo cáo tin tức Công nghệ
Lisk chính thức chuyển sang Ethereum lớp 2 và ra mắt Core v4.0.6
8 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH