GPT-4 Vượt trội hơn GPT-3.5 Nhìn chung về các tiêu chuẩn nghiên cứu đa dạng
Tóm lại
Sản phẩm GPT-4 đã đạt được ngưỡng điểm cao hơn so với GPT-3.5 trên nhiều điểm chuẩn khác nhau.
Đây là một thành tựu lớn vì nó cho thấy máy móc không chỉ có khả năng thông minh giống con người mà còn có thể vượt trội hơn chúng ta, điều này đặt ra câu hỏi về tương lai của AI và tác động tiềm tàng của nó đối với thị trường việc làm.
GPT-4 được đánh giá cao hơn đáng kể so với các mô hình tiên tiến (SOTA), bao gồm cả những mô hình sử dụng các giao thức đào tạo bổ sung hoặc thiết kế dành riêng cho điểm chuẩn, cũng như các mô hình ngôn ngữ lớn hiện có.
Sản phẩm GPT-4 đã đạt được điểm cao hơn so với GPT-3.5 trên nhiều điểm chuẩn khác nhau. Đây là một bước đột phá lớn đối với máy móc vì nó chứng minh rằng giờ đây chúng không chỉ có thể giải quyết các vấn đề được thiết kế ban đầu mà còn có thể làm tốt hơn sinh viên đại học.
Có một số điều cần cân nhắc khi nhìn vào kết quả này. Thứ nhất, GPT-4 không được đào tạo cụ thể cho các kỳ thi này. Nó được tiến hành bằng cách sử dụng các bài kiểm tra công khai gần đây nhất (trong trường hợp các câu hỏi trả lời miễn phí của Olympic và AP) hoặc bằng cách mua các phiên bản bài kiểm tra thực hành 2022–2023. Thứ hai, điều quan trọng cần lưu ý là GPT-4Hiệu suất của nó có thể không nhất thiết phản ánh khả năng của những người làm bài kiểm tra là con người, vì nó hoạt động dựa trên một bộ nguyên tắc và thuật toán khác.
Đây là một thành tựu lớn vì nó cho thấy rằng máy móc không chỉ có khả năng thông minh như con người mà còn có thể vượt trội hơn chúng ta. Điều này mở đường cho một tương lai nơi máy móc có thể đảm nhận các nhiệm vụ ngày càng phức tạp hơn, cuối cùng dẫn đến một tương lai mà chúng có thể hỗ trợ chúng ta trong cuộc sống hàng ngày.
GPT-4, ví dụ: vượt qua kỳ thi thanh mô phỏng với số điểm nằm trong top 10% người tham gia bài kiểm tra; GPT-3Điểm của .5 nằm trong 10% cuối cùng. Sự cải thiện đáng kể này trong GPT-4hiệu suất của nó là do dữ liệu đào tạo lớn hơn và kiến trúc được cải thiện. Nó dự kiến sẽ có nhiều ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm xử lý ngôn ngữ tự nhiên và viết tự động.
Phần lớn các mô hình hiện đại (SOTA), bao gồm cả những mô hình có thể sử dụng các giao thức đào tạo bổ sung hoặc thiết kế dành riêng cho điểm chuẩn, cũng như các mô hình lớn hiện có. mô hình ngôn ngữ, được vượt trội hơn đáng kể bởi GPT-4.
Trong nội bộ, các nhà phát triển đã và đang sử dụng GPT-4, điều này đã có tác động đáng kể đến các hoạt động như lập trình, bán hàng, hỗ trợ và kiểm duyệt nội dung. Giai đoạn thứ hai trong phương pháp căn chỉnh của chúng tôi hiện đang được tiến hành khi các nhà phát triển sử dụng nó để hỗ trợ con người xem xét kết quả AI.
Bộ dữ liệu MMLU (Hiểu ngôn ngữ đa nhiệm lớn) chứa các câu hỏi từ rất nhiều chủ đề về hiểu ngôn ngữ trong các nhiệm vụ khác nhau (bao gồm 57 lĩnh vực, bao gồm toán học, sinh học, luật, khoa học xã hội và nhân văn, v.v.). Có bốn câu trả lời có thể cho câu hỏi, một trong số đó là chính xác. Nghĩa là, đoán ngẫu nhiên cho kết quả 25% câu trả lời đúng. Xem hình dưới đây để biết ví dụ về các câu hỏi và khó khăn của họ. Người đánh dấu người bình thường (nghĩa là, đây không phải là nhà khoa học, không phải giáo sư—một người bình thường coi nhẹ việc đánh dấu) trả lời đúng 35% câu hỏi; tuy nhiên, các chuyên gia có thể đạt số điểm +/- 90%.
Tìm hiểu thêm: 5 lý do nên sử dụng Bing do AI hỗ trợ thay vì Google |
Ban đầu, toàn bộ tập dữ liệu bằng tiếng Anh. Nhưng điều gì sẽ xảy ra nếu các câu hỏi và câu trả lời được dịch sang các ngôn ngữ khác, đặc biệt là những ngôn ngữ ít phổ biến hơn? Liệu mô hình này có hiệu quả với họ bằng cách nào đó không? Trong thử nghiệm này, dịch vụ Microsoft Azure Translate đã được sử dụng để dịch. Bản dịch không hoàn hảo; trong một số trường hợp, thông tin quan trọng bị mất. Tuy nhiên, ngay cả trong trường hợp này, GPT-4 hoạt động tốt trong các ngôn ngữ khác. Trong các phiên bản dịch của MMLU, GPT-4 vượt trội hơn trình độ tiếng Anh của các mô hình lớn khác (bao gồm cả của Google) ở 24 trong số 26 ngôn ngữ được kiểm tra.
Hơn nữa, GPT-4 hoạt động tốt hơn ở các ngôn ngữ hiếm hơn ChatGPT đã làm bằng tiếng Anh (ChatGPT đạt điểm 70.1%, trong khi điểm mẫu mới của Thái là 71.8%). Điểm bài kiểm tra tiếng Anh là cao nhất, với GPT-4 hoạt động tốt hơn 10% so với các mô hình khác, bao gồm cả PaLM lớn nhất của Google. Nó đạt được số điểm 86.4%, trong khi một nhóm chuyên gia đạt được 90%.
- Vào mùa hè năm 2023, AI có thể đã đạt đến tầm cao mới nhờ ChatGPT, một chatbot sử dụng GPT-4 thuật toán và vượt trội GPT-3 theo hệ số 570. Một loạt các yếu tố góp phần vào ChatGPTthành công của nó, bao gồm thiết kế của nó trở nên “giống con người” hơn và việc sử dụng khai thác dữ liệu tiên tiến và xử lý ngôn ngữ tự nhiên để tăng hiệu quả và độ chính xác của nó.
- Microsoft và OpenAI đã công bố sự đổi mới hợp tác và kế hoạch tìm kiếm Bing để áp dụng khả năng tra cứu được nâng cao bởi AI vào tháng XNUMX. Rất tinh vi GPTsự thay thế của mô hình 3.5, GPT4, vừa được ra mắtvà nó có khả năng nâng cao đáng kể khả năng của tìm kiếm Bing để hiểu các truy vấn ngôn ngữ tự nhiên và mang lại kết quả chính xác hơn. Bạn nên có một kế hoạch dự phòng tốt trong trường hợp có sự cố xảy ra.
Đọc thêm các tin liên quan:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.