Tháng Tám 23, 2023

Các nhà nghiên cứu thách thức khái niệm về 'khả năng mới nổi' của các mô hình ngôn ngữ lớn

Được xuất bản: ngày 23 tháng 2023 năm 5 lúc 54:23 sáng Cập nhật: ngày 2023 tháng 5 năm 54 lúc XNUMX:XNUMX sáng

Đã chỉnh sửa và xác minh tính xác thực: ngày 23 tháng 2023 năm 5 lúc 54:XNUMX sáng

Tóm lại

Ngày tận thế AGI đáng lo ngại do hiện tượng mô hình ngôn ngữ lớn đột ngột xuất hiện thể hiện khả năng mà các mẫu nhỏ hơn dường như không có.

Hiện tượng này được gọi là “khả năng mới nổi của Mô hình ngôn ngữ lớn”.

Các tác giả của bài báo “Có phải những khả năng mới nổi của các mô hình ngôn ngữ lớn là một ảo ảnh?” lập luận rằng tác động của những khả năng mới nổi không phải là ảo ảnh mà là sự tăng trưởng có thể dự đoán được trong khả năng thực hiện nhiệm vụ.

Họ cho thấy ít nhất 92% các vấn đề của Big Bench không có sự đột phá đột ngột đối với các mô hình lớn, và chất lượng các mô hình của họ tăng trưởng ổn định và có thể dự đoán được khi kích thước của các mô hình tăng lên.

Trong một cuộc kiểm tra gần đây về khả năng tiềm năng của các mô hình ngôn ngữ lớn, các nhà nghiên cứu thách thức khái niệm “khả năng mới nổi” và làm sáng tỏ khía cạnh dễ dự đoán hơn về chức năng của chúng. Bài viết có tiêu đề “Hé lộ thực tế về khả năng mới nổi của các mô hình ngôn ngữ lớn” thu hút sự chú ý đến việc giải thích sai các số liệu dẫn đến quan niệm sai lầm rằng các mô hình này có được các kỹ năng nâng cao một cách tự nhiên.

Các nhà nghiên cứu thách thức khái niệm về 'khả năng mới nổi' của các mô hình ngôn ngữ lớn — Tín dụng: Metaverse Post / Stable Diffusion

Khái niệm của "khả năng mới nổi” trong bối cảnh của các mô hình ngôn ngữ lớn, chẳng hạn như GPT loạt, đã làm dấy lên mối lo ngại về khả năng các mô hình này phát triển những khả năng không lường trước được giống như ý thức của con người. Bài viết này khẳng định rằng những giả định này dựa trên sự hiểu biết thiếu sót về hành vi và khả năng thực tế của các mô hình.

Hiện tượng thường được quan sát thấy, trong đó các mô hình lớn hơn dường như có được những khả năng mới như suy luận trừu tượng, giải quyết vấn đề và thậm chí là hài hước, đã được đặt ra là “khả năng mới nổi của Mô hình ngôn ngữ lớn”. Các tác giả của bài báo cho rằng những khả năng này không tự phát như vẻ ngoài của chúng, mà là kết quả của các số liệu đánh giá sai lệch.

Để minh họa cho quan điểm của mình, các nhà nghiên cứu xem xét nhiệm vụ “đoán câu đố”, một vấn đề trong đó mô hình ngôn ngữ được yêu cầu để hiểu câu đố ngôn ngữ tự nhiên và trả lời bằng câu trả lời đúng bằng ngôn ngữ tự nhiên. Theo truyền thống, chất lượng của các câu trả lời đã được đánh giá bằng cách sử dụng số liệu nhị phân: một câu trả lời được gán điểm 1 nếu nó khớp chính xác với câu trả lời đúng và điểm 0 nếu ngược lại.

Mấu chốt của vấn đề nằm ở độ nhạy của thước đo đối với độ phức tạp của nhiệm vụ và số lượng tham số mô hình. Các nhà nghiên cứu tiết lộ rằng số liệu nhị phân này dẫn đến một nhận thức lừa đảo về “khả năng mới nổi”. Các mô hình nhỏ hơn thường thể hiện độ chính xác không đáng kể (eps) trên số liệu này, trong khi các mô hình lớn hơn, đặc biệt là những mô hình có số tham số cao, dường như đạt được mức độ chính xác đáng chú ý (acc > 0.5).

Bài báo cho rằng sự thay đổi rõ ràng về khả năng này không phải là dấu hiệu cho thấy các mô hình có được các kỹ năng phức tạp một cách tự phát. Thay vào đó, khả năng hiểu và tạo ra các phản hồi mang nhiều sắc thái hơn của mô hình bắt nguồn từ việc đánh giá tỉ mỉ hơn về kết quả đầu ra của chúng. Bằng cách tập trung vào kết hợp xác suất và sự gắn kết ngữ nghĩa hơn là kết hợp chuỗi chính xác, các nhà nghiên cứu cho thấy rằng sự phát triển của người mẫu trong hiệu suất tuân theo một quỹ đạo hợp lý hơn, bất kể kích thước của chúng.

Sản phẩm liên quan: Sự phát triển của Chatbots từ thời T9 và GPT-1 đến ChatGPT

Điều tra sự tiến hóa của hiệu suất mô hình với các tham số thay đổi

Trong một cuộc điều tra phân tích, các nhà nghiên cứu phát hiện ra cơ chế tinh vi đằng sau “khả năng mới nổi” được nhận thức của mô hình ngôn ngữ lớn. Nghiên cứu đặt câu hỏi về ảnh hưởng của các số liệu siêu rời rạc trong việc đánh giá hiệu suất của mô hình và làm sáng tỏ hiểu biết mang tính dự đoán hơn về khả năng của chúng khi các tham số mô hình mở rộng.

Khái niệm phổ biến về “khả năng mới nổi” trong các mô hình ngôn ngữ mở rộng đã thu hút các cuộc thảo luận và gây lo ngại về những đột phá tiềm năng. Nghiên cứu này tìm cách tháo gỡ các cơ chế đằng sau hiện tượng này và giải mã liệu những mô hình này có thực sự thể hiện những khả năng đột ngột, chưa từng có hay liệu những tiến bộ được nhận thức này có thể được quy cho một nguyên nhân khác.

Trọng tâm của nghiên cứu là đánh giá tỉ mỉ các số liệu được sử dụng để đánh giá hiệu suất của mô hình. Các nhà nghiên cứu cho rằng việc sử dụng các phép đo siêu rời rạc, đặc biệt là phép đo nhị phân thông thường xác định các chuỗi khớp chính xác, có thể làm sai lệch việc giải thích các chuỗi lớn. khả năng mô hình ngôn ngữ. Nghiên cứu này phân tích tỉ mỉ mức độ phân bố xác suất của các câu trả lời do mô hình tạo ra theo thang đo tham số mô hình.

Trái ngược với khái niệm “khả năng mới nổi”, nghiên cứu cho thấy một xu hướng có hệ thống hơn. Khi kích thước của mô hình tăng lên, khả năng gán xác suất cao hơn cho các câu trả lời phù hợp và xác suất thấp hơn cho các câu trả lời sai sẽ được cải thiện. Điều này phản ánh sự nâng cao nhất quán về khả năng của mô hình trong việc giải quyết các vấn đề một cách thành thạo trên nhiều quy mô khác nhau. Về bản chất, nghiên cứu cho thấy rằng quá trình học tập của các mô hình tuân theo một quy trình tốt.defiquỹ đạo cải tiến cần thiết hơn là một bước nhảy vọt đột ngột.

Các tác giả giới thiệu một sự thay đổi mô hình bằng cách đề xuất thay thế các số liệu rời rạc bằng các số liệu liên tục. Sự thay đổi này cung cấp một bức tranh rõ ràng hơn về sự phát triển hiệu suất. Thông qua phân tích của họ, các nhà nghiên cứu xác định rằng khoảng 92% vấn đề băng ghế dự bị lớn thể hiện sự tăng trưởng suôn sẻ và có thể dự đoán được về chất lượng khi kích thước mô hình mở rộng. Phát hiện này thách thức quan điểm cho rằng các mô hình lớn hơn trải qua những bước đột phá đột ngột và thay vào đó làm nổi bật sự tiến triển dần dần và được dự đoán trước.

Nghiên cứu mở rộng những hiểu biết sâu sắc của nó để xác nhận tuyên bố của nó. Nó chứng minh rằng hiệu ứng “khả năng mới nổi” tương tự có thể được mô phỏng một cách nhân tạo bằng cách sử dụng bộ mã hóa tự động thông thường, cho thấy rằng việc lựa chọn các số liệu ảnh hưởng đáng kể đến kết quả nhận thức được. Tiết lộ này mở rộng phạm vi ý nghĩa của nghiên cứu, chứng minh sự liên quan của nó vượt ra ngoài các mô hình ngôn ngữ.

Các nhà nghiên cứu nhấn mạnh rằng kết quả của họ không defiphủ nhận một cách cơ bản tiềm năng về “khả năng mới nổi” hoặc ý thức trong các mô hình ngôn ngữ lớn. Tuy nhiên, những phát hiện của họ khuyến khích các nhà nghiên cứu tiếp cận những tuyên bố như vậy với một góc nhìn đa sắc thái. Thay vì vội vàng ngoại suy và đưa ra những kết luận cực đoan, nghiên cứu này nhấn mạnh tầm quan trọng của việc điều tra tỉ mỉ và phân tích toàn diện.

Đọc thêm về AI:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov