Báo cáo tin tức Công nghệ
15 Tháng ba, 2023

GPT-4 Vượt trội hơn GPT-3.5 Nhìn chung về các tiêu chuẩn nghiên cứu đa dạng

Tóm lại

Sản phẩm GPT-4 đã đạt được ngưỡng điểm cao hơn so với GPT-3.5 trên nhiều điểm chuẩn khác nhau.

Đây là một thành tựu lớn vì nó cho thấy máy móc không chỉ có khả năng thông minh giống con người mà còn có thể vượt trội hơn chúng ta, điều này đặt ra câu hỏi về tương lai của AI và tác động tiềm tàng của nó đối với thị trường việc làm.

GPT-4 được đánh giá cao hơn đáng kể so với các mô hình tiên tiến (SOTA), bao gồm cả những mô hình sử dụng các giao thức đào tạo bổ sung hoặc thiết kế dành riêng cho điểm chuẩn, cũng như các mô hình ngôn ngữ lớn hiện có.

Sản phẩm GPT-4 đã đạt được điểm cao hơn so với GPT-3.5 trên nhiều điểm chuẩn khác nhau. Đây là một bước đột phá lớn đối với máy móc vì nó chứng minh rằng giờ đây chúng không chỉ có thể giải quyết các vấn đề được thiết kế ban đầu mà còn có thể làm tốt hơn sinh viên đại học.

GPT-4 vượt trội GPT-3.5 về mọi mặt trên nhiều tiêu chuẩn học tập khác nhau

Có một số điều cần cân nhắc khi nhìn vào kết quả này. Thứ nhất, GPT-4 không được đào tạo cụ thể cho các kỳ thi này. Nó được tiến hành bằng cách sử dụng các bài kiểm tra công khai gần đây nhất (trong trường hợp các câu hỏi trả lời miễn phí của Olympic và AP) hoặc bằng cách mua các phiên bản bài kiểm tra thực hành 2022–2023. Thứ hai, điều quan trọng cần lưu ý là GPT-4Hiệu suất của nó có thể không nhất thiết phản ánh khả năng của những người làm bài kiểm tra là con người, vì nó hoạt động dựa trên một bộ nguyên tắc và thuật toán khác.

Đây là một thành tựu lớn vì nó cho thấy rằng máy móc không chỉ có khả năng thông minh như con người mà còn có thể vượt trội hơn chúng ta. Điều này mở đường cho một tương lai nơi máy móc có thể đảm nhận các nhiệm vụ ngày càng phức tạp hơn, cuối cùng dẫn đến một tương lai mà chúng có thể hỗ trợ chúng ta trong cuộc sống hàng ngày.

Sản phẩm GPT-4khả năng vượt trội hơn con người trong một số nhiệm vụ nhất định đặt ra câu hỏi về tương lai của trí tuệ nhân tạo và tác động tiềm năng của nó đối với thị trường việc làm. Nó cũng nhấn mạnh nhu cầu tiếp tục nghiên cứu và phát triển trong lĩnh vực này để đảm bảo rằng AI được sử dụng một cách có đạo đức và có trách nhiệm.
Tìm hiểu thêm: Hơn 5 mẫu AI chuyển văn bản thành hình ảnh được mong đợi nhất năm 2023

GPT-4, ví dụ: vượt qua kỳ thi thanh mô phỏng với số điểm nằm trong top 10% người tham gia bài kiểm tra; GPT-3Điểm của .5 nằm trong 10% cuối cùng. Sự cải thiện đáng kể này trong GPT-4hiệu suất của nó là do dữ liệu đào tạo lớn hơn và kiến ​​trúc được cải thiện. Nó dự kiến ​​sẽ có nhiều ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm xử lý ngôn ngữ tự nhiên và viết tự động.

 
GPT-4 thể hiện thành tích ở cấp độ con người trong phần lớn các kỳ thi chuyên môn và học thuật này. Đáng chú ý, nó đã vượt qua phiên bản mô phỏng của Bài kiểm tra thanh thống nhất với số điểm nằm trong top 10% thí sinh làm bài kiểm tra. Khả năng của mô hình trong các bài kiểm tra dường như chủ yếu xuất phát từ quá trình đào tạo trước và không bị ảnh hưởng đáng kể bởi RLHF. Đối với các câu hỏi trắc nghiệm, cả cơ sở GPT-4 mô hình và mô hình RLHF có kết quả trung bình tốt như nhau đối với các nhà phát triển bài kiểm tra được thử nghiệm.

Phần lớn các mô hình hiện đại (SOTA), bao gồm cả những mô hình có thể sử dụng các giao thức đào tạo bổ sung hoặc thiết kế dành riêng cho điểm chuẩn, cũng như các mô hình lớn hiện có. mô hình ngôn ngữ, được vượt trội hơn đáng kể bởi GPT-4.

GPT-4thành tích của học sinh xét về mặt tiêu chuẩn học thuật. Sự tương phản của nhà phát triển GPT-4 với SOTA tốt nhất cho một vài cú đánh được LM đánh giá cũng như SOTA tốt nhất với chương trình đào tạo cụ thể theo điểm chuẩn. Ngoại trừ DROP, GPT-4 vượt trội hơn tất cả các LM hiện tại trên tất cả các điểm chuẩn và SOTA với chương trình đào tạo dành riêng cho điểm chuẩn.

Trong nội bộ, các nhà phát triển đã và đang sử dụng GPT-4, điều này đã có tác động đáng kể đến các hoạt động như lập trình, bán hàng, hỗ trợ và kiểm duyệt nội dung. Giai đoạn thứ hai trong phương pháp căn chỉnh của chúng tôi hiện đang được tiến hành khi các nhà phát triển sử dụng nó để hỗ trợ con người xem xét kết quả AI.

Bộ dữ liệu MMLU (Hiểu ngôn ngữ đa nhiệm lớn) chứa các câu hỏi từ rất nhiều chủ đề về hiểu ngôn ngữ trong các nhiệm vụ khác nhau (bao gồm 57 lĩnh vực, bao gồm toán học, sinh học, luật, khoa học xã hội và nhân văn, v.v.). Có bốn câu trả lời có thể cho câu hỏi, một trong số đó là chính xác. Nghĩa là, đoán ngẫu nhiên cho kết quả 25% câu trả lời đúng. Xem hình dưới đây để biết ví dụ về các câu hỏi và khó khăn của họ. Người đánh dấu người bình thường (nghĩa là, đây không phải là nhà khoa học, không phải giáo sư—một người bình thường coi nhẹ việc đánh dấu) trả lời đúng 35% câu hỏi; tuy nhiên, các chuyên gia có thể đạt số điểm +/- 90%.

Hiệu suất của GPT-4 bằng nhiều ngôn ngữ so với các mô hình trước đó bằng tiếng Anh trên MMLU. GPT-4 vượt quá hiệu suất tiếng Anh của các mô hình ngôn ngữ hiện có đối với phần lớn các ngôn ngữ được kiểm tra, bao gồm cả các ngôn ngữ có nguồn tài nguyên thấp như tiếng Latvia, tiếng Wales và tiếng Swahili.
Tìm hiểu thêm: 5 lý do nên sử dụng Bing do AI hỗ trợ thay vì Google

Ban đầu, toàn bộ tập dữ liệu bằng tiếng Anh. Nhưng điều gì sẽ xảy ra nếu các câu hỏi và câu trả lời được dịch sang các ngôn ngữ khác, đặc biệt là những ngôn ngữ ít phổ biến hơn? Liệu mô hình này có hiệu quả với họ bằng cách nào đó không? Trong thử nghiệm này, dịch vụ Microsoft Azure Translate đã được sử dụng để dịch. Bản dịch không hoàn hảo; trong một số trường hợp, thông tin quan trọng bị mất. Tuy nhiên, ngay cả trong trường hợp này, GPT-4 hoạt động tốt trong các ngôn ngữ khác. Trong các phiên bản dịch của MMLU, GPT-4 vượt trội hơn trình độ tiếng Anh của các mô hình lớn khác (bao gồm cả của Google) ở 24 trong số 26 ngôn ngữ được kiểm tra.

Hơn nữa, GPT-4 hoạt động tốt hơn ở các ngôn ngữ hiếm hơn ChatGPT đã làm bằng tiếng Anh (ChatGPT đạt điểm 70.1%, trong khi điểm mẫu mới của Thái là 71.8%). Điểm bài kiểm tra tiếng Anh là cao nhất, với GPT-4 hoạt động tốt hơn 10% so với các mô hình khác, bao gồm cả PaLM lớn nhất của Google. Nó đạt được số điểm 86.4%, trong khi một nhóm chuyên gia đạt được 90%.

  • Vào mùa hè năm 2023, AI có thể đã đạt đến tầm cao mới nhờ ChatGPT, một chatbot sử dụng GPT-4 thuật toán và vượt trội GPT-3 theo hệ số 570. Một loạt các yếu tố góp phần vào ChatGPTthành công của nó, bao gồm thiết kế của nó trở nên “giống con người” hơn và việc sử dụng khai thác dữ liệu tiên tiến và xử lý ngôn ngữ tự nhiên để tăng hiệu quả và độ chính xác của nó.
  • Microsoft và OpenAI đã công bố sự đổi mới hợp tác và kế hoạch tìm kiếm Bing để áp dụng khả năng tra cứu được nâng cao bởi AI vào tháng XNUMX. Rất tinh vi GPTsự thay thế của mô hình 3.5, GPT4, vừa được ra mắtvà nó có khả năng nâng cao đáng kể khả năng của tìm kiếm Bing để hiểu các truy vấn ngôn ngữ tự nhiên và mang lại kết quả chính xác hơn. Bạn nên có một kế hoạch dự phòng tốt trong trường hợp có sự cố xảy ra.

Đọc thêm các tin liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH