รายงานข่าว เทคโนโลยี
March 15, 2023

GPT-4 ประสิทธิภาพเหนือกว่า GPT-3.5 ครอบคลุมเกณฑ์มาตรฐานการศึกษาที่หลากหลาย

ในบทสรุป

พื้นที่ GPT-4 ได้บรรลุเกณฑ์ระดับที่สูงกว่า GPT-3.5 บนเกณฑ์มาตรฐานต่างๆ

นี่เป็นความสำเร็จครั้งสำคัญที่แสดงให้เห็นว่าเครื่องจักรไม่เพียงแต่มีความฉลาดเหมือนมนุษย์เท่านั้น แต่ยังมีประสิทธิภาพเหนือกว่าเราด้วย ซึ่งทำให้เกิดคำถามเกี่ยวกับอนาคตของ AI และผลกระทบที่อาจเกิดขึ้นกับตลาดงาน

GPT-4 มีประสิทธิภาพเหนือกว่าโมเดลที่ล้ำสมัย (SOTA) อย่างมาก รวมถึงโมเดลที่ใช้โปรโตคอลการฝึกอบรมเพิ่มเติมหรือการออกแบบเฉพาะการวัดประสิทธิภาพ เช่นเดียวกับโมเดลภาษาหลักที่มีอยู่

พื้นที่ GPT-4 ได้คะแนนสูงกว่า GPT-3.5 บนเกณฑ์มาตรฐานต่างๆ นี่เป็นความก้าวหน้าครั้งสำคัญสำหรับเครื่องจักร เนื่องจากพิสูจน์ให้เห็นว่าปัจจุบันไม่เพียงแต่สามารถแก้ปัญหาที่ได้รับการออกแบบมาเพื่อแต่แรกเท่านั้น แต่ยังสามารถทำได้ดีกว่านักศึกษามหาวิทยาลัยอีกด้วย

GPT-4 ประสิทธิภาพเหนือกว่า GPT-3.5 ทั่วกระดานเกี่ยวกับเกณฑ์มาตรฐานการศึกษาที่หลากหลาย

มีบางสิ่งที่ต้องคำนึงถึงเมื่อดูผลลัพธ์นี้ ประการแรก GPT-4 ไม่ได้รับการฝึกอบรมเฉพาะใดๆ สำหรับการสอบเหล่านี้ ดำเนินการโดยการใช้การทดสอบที่เปิดเผยต่อสาธารณะล่าสุด (ในกรณีของคำถามตอบฟรีของ Olympiads และ AP) หรือโดยการซื้อข้อสอบฝึกหัดรุ่นปี 2022–2023 ประการที่สอง สิ่งสำคัญคือต้องทราบว่า GPT-4ประสิทธิภาพของการทดสอบอาจไม่ได้สะท้อนถึงความสามารถของผู้ทำการทดสอบที่เป็นมนุษย์เสมอไป เนื่องจากทำงานบนหลักการและอัลกอริธึมชุดที่แตกต่างกัน

นี่เป็นความสำเร็จครั้งสำคัญในฐานะ มันแสดงให้เห็น เครื่องจักรนั้นไม่เพียงแต่มีความฉลาดเหมือนมนุษย์เท่านั้นแต่ยังมีประสิทธิภาพเหนือกว่าเราอีกด้วย นี่เป็นการปูทางไปสู่อนาคตที่เครื่องจักรสามารถทำงานที่ซับซ้อนมากขึ้นและนำไปสู่อนาคตที่เครื่องจักรสามารถช่วยเราในชีวิตประจำวันได้ในที่สุด

พื้นที่ GPT-4ความสามารถของมนุษย์ในการทำงานบางอย่างทำให้เกิดคำถามเกี่ยวกับอนาคตของ ปัญญาประดิษฐ์ และผลกระทบที่อาจเกิดขึ้นกับตลาดงาน นอกจากนี้ยังเน้นถึงความจำเป็นในการวิจัยและพัฒนาอย่างต่อเนื่องในสาขานี้เพื่อให้แน่ใจว่ามีการใช้ AI อย่างมีจริยธรรมและมีความรับผิดชอบ
อ่านเพิ่มเติม: โมเดล AI แปลงข้อความเป็นรูปภาพ 5+ รุ่นที่ได้รับการคาดหวังมากที่สุดในปี 2023

GPT-4ตัวอย่างเช่น ผ่านการสอบเนติบัณฑิตโดยมีคะแนนอยู่ใน 10% แรกของผู้สอบ GPT-3คะแนนของ .5 อยู่ในอันดับล่างสุด 10% การปรับปรุงที่สำคัญนี้ใน GPT-4ประสิทธิภาพของมันเนื่องมาจากข้อมูลการฝึกที่ใหญ่ขึ้นและสถาปัตยกรรมที่ได้รับการปรับปรุง คาดว่าจะมีการใช้งานที่หลากหลายในสาขาต่างๆ รวมถึงการประมวลผลภาษาธรรมชาติและการเขียนอัตโนมัติ

 
GPT-4 จัดแสดงผลงานระดับมนุษย์ในการสอบวิชาชีพและวิชาการส่วนใหญ่ โดยเฉพาะอย่างยิ่ง ผ่านการสอบ Uniform Bar Examination เวอร์ชันจำลอง โดยมีคะแนนอยู่ในกลุ่มผู้สอบ 10% แรก ความสามารถของแบบจำลองในการสอบดูเหมือนจะมีต้นกำเนิดมาจากกระบวนการก่อนการฝึกอบรมเป็นหลัก และไม่ได้รับผลกระทบอย่างมีนัยสำคัญจาก RLHF เกี่ยวกับคำถามแบบปรนัยทั้งฐาน GPT-4 โมเดลและโมเดล RLHF ทำงานได้ดีพอๆ กันโดยเฉลี่ยทั่วทั้งผู้พัฒนาข้อสอบที่ทดสอบ

โมเดลที่ทันสมัยที่สุด (SOTA) ส่วนใหญ่ รวมถึงโมเดลที่อาจใช้โปรโตคอลการฝึกอบรมเพิ่มเติมหรือการออกแบบเฉพาะเกณฑ์มาตรฐาน ตลอดจนโมเดลขนาดใหญ่ที่มีอยู่ โมเดลภาษามีประสิทธิภาพเหนือกว่าอย่างเห็นได้ชัด GPT-4.

GPT-4ผลงานในด้านมาตรฐานการศึกษา นักพัฒนาตัดกัน GPT-4 ด้วย SOTA ที่ดีที่สุดสำหรับช็อต XNUMX-XNUMX นัดที่ได้รับการประเมินโดย LM รวมถึง SOTA ที่ดีที่สุดพร้อมการฝึกอบรมเฉพาะเกณฑ์มาตรฐาน ยกเว้น DROP GPT-4 มีประสิทธิภาพเหนือกว่า LM ปัจจุบันทั้งหมดบนการวัดประสิทธิภาพทั้งหมดและ SOTA ด้วยการฝึกอบรมเฉพาะการวัดประสิทธิภาพ

ภายในนักพัฒนาได้นำไปใช้ GPT-4ซึ่งมีผลกระทบอย่างมากต่อกิจกรรมต่างๆ เช่น การเขียนโปรแกรม การขาย การสนับสนุน และการกลั่นกรองเนื้อหา ขั้นตอนที่สองของวิธีการจัดตำแหน่งของเราอยู่ระหว่างดำเนินการ ในขณะที่นักพัฒนาใช้วิธีนี้เพื่อช่วยมนุษย์ในการตรวจสอบผลลัพธ์ของ AI

ชุดข้อมูล MMLU (Massive Multi-Task Language Understanding) ประกอบด้วยคำถามจากหัวข้อต่างๆ มากมายเกี่ยวกับความเข้าใจภาษาในงานต่างๆ (ครอบคลุม 57 โดเมน รวมถึงคณิตศาสตร์ ชีววิทยา กฎหมาย สังคมศาสตร์ และมนุษย์ศาสตร์ ฯลฯ) มีสี่คำตอบที่เป็นไปได้สำหรับคำถาม ซึ่งหนึ่งในนั้นถูกต้อง นั่นคือ การคาดเดาแบบสุ่มจะแสดงผลลัพธ์ของคำตอบที่ถูกต้อง 25% ดูภาพด้านล่างสำหรับตัวอย่างคำถามและความยากลำบาก เครื่องหมายบุคคลโดยเฉลี่ย (นั่นคือไม่ใช่นักวิทยาศาสตร์ ไม่ใช่ศาสตราจารย์—คนธรรมดาที่ส่องแสงจันทร์เป็นเครื่องหมาย) ตอบคำถามได้ถูกต้องถึง 35% ของคำถาม อย่างไรก็ตาม ผู้เชี่ยวชาญสามารถทำคะแนนได้ถึง +/- 90%

ประสิทธิภาพของ GPT-4 ในหลากหลายภาษาเมื่อเทียบกับรุ่นก่อนหน้าในภาษาอังกฤษบน MMLU GPT-4 มีประสิทธิภาพเหนือกว่าภาษาอังกฤษของโมเดลภาษาที่มีอยู่สำหรับภาษาส่วนใหญ่ที่ตรวจสอบ รวมถึงภาษาที่มีทรัพยากรต่ำ เช่น ลัตเวีย เวลส์ และสวาฮิลี
อ่านเพิ่มเติม: 5 เหตุผลในการใช้ Bing ที่ขับเคลื่อนด้วย AI เหนือ Google

เดิมทีชุดข้อมูลทั้งหมดเป็นภาษาอังกฤษ แต่จะเกิดอะไรขึ้นหากคำถามและคำตอบได้รับการแปลเป็นภาษาอื่น โดยเฉพาะคำถามและคำตอบที่ไม่ค่อยพบบ่อยนัก? แบบจำลองนี้จะใช้ได้กับพวกเขาหรือไม่? ในการทดสอบนี้ใช้บริการ Microsoft Azure Translate สำหรับการแปล การแปลไม่สมบูรณ์ ในบางกรณีข้อมูลสำคัญอาจสูญหายได้ อย่างไรก็ตาม แม้ในกรณีนี้ GPT-4 ทำงานได้ดีในภาษาอื่น ใน MMLU เวอร์ชันแปล GPT-4 มีประสิทธิภาพเหนือกว่าระดับภาษาอังกฤษของโมเดลขนาดใหญ่อื่นๆ (รวมถึงของ Google) โดย 24 จาก 26 ภาษาที่ตรวจสอบ

มีอะไรอีก, GPT-4 ทำงานได้ดีกว่าในภาษาที่หายากมากกว่า ChatGPT ทำเป็นภาษาอังกฤษ (ChatGPT ได้คะแนน 70.1% ในขณะที่คะแนนรุ่นใหม่ของไทยอยู่ที่ 71.8%) คะแนนสอบภาษาอังกฤษก็สูงที่สุดด้วย GPT-4 ทำงานได้ดีกว่ารุ่นอื่นๆ ถึง 10% รวมถึง PaLM ที่ใหญ่ที่สุดจาก Google ได้คะแนน 86.4% ในขณะที่กลุ่มผู้เชี่ยวชาญ - 90%

  • ภายในฤดูร้อนปี 2023 AI อาจก้าวสู่ระดับใหม่ของพลังด้วย ChatGPTซึ่งเป็นแชทบอทที่ใช้ GPT-4 อัลกอริทึมและ ประสิทธิภาพเหนือกว่า GPT-3 คูณด้วย 570. องค์ประกอบที่หลากหลายมีส่วนทำให้ ChatGPTความสำเร็จของรวมถึงการออกแบบให้ "เหมือนมนุษย์" มากขึ้น และการใช้การทำเหมืองข้อมูลที่ทันสมัยและการประมวลผลภาษาธรรมชาติเพื่อเพิ่มประสิทธิภาพและความแม่นยำ
  • Microsoft และ OpenAI ประกาศการต่ออายุการทำงานร่วมกันและแผนสำหรับการค้นหา Bing เพื่อใช้ความสามารถในการค้นหาที่ปรับปรุงด้วย AI ในเดือนมกราคม ที่มีความซับซ้อนมาก GPTการเปลี่ยนรุ่น 3.5, GPT4, เพิ่งเปิดตัวและมีศักยภาพในการเพิ่มขีดความสามารถในการค้นหาของ Bing อย่างมากในการทำความเข้าใจข้อความค้นหาในภาษาธรรมชาติและให้ผลลัพธ์ที่แม่นยำยิ่งขึ้น เป็นความคิดที่ดีที่จะมีแผนสำรองที่ดีในกรณีที่เกิดข้อผิดพลาดขึ้น

อ่านข่าวที่เกี่ยวข้องเพิ่มเติม:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
May 3, 2024
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
ตลาด รายงานข่าว เทคโนโลยี
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
May 3, 2024
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
ตลาด รายงานข่าว เทคโนโลยี
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
May 3, 2024
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
May 3, 2024
CRYPTOMERIA LABS PTE. บจก.