รายงานข่าว เทคโนโลยี
กรกฎาคม 20, 2023

การศึกษาของ Stanford ยืนยัน GPT-4 กำลังเริ่มโง่เขลา

ในบทสรุป

การศึกษาโดย Matei Zaharia และทีมงานของเขาจาก Stanford และ UC Berkeley เปรียบเทียบประสิทธิภาพของ GPT-4 และ ChatGPT เพื่อแก้ไขความกังวลของผู้ใช้เกี่ยวกับประสิทธิภาพของโมเดล

การศึกษาประเมินแบบจำลองในงานเฉพาะสี่อย่าง ได้แก่ คณิตศาสตร์ การเข้ารหัส ความไว และการให้เหตุผลด้วยภาพ

Matei Zaharia และทีมงานของเขาจาก Stanford และ UC Berkeley ดำเนินการศึกษา ที่เปรียบเทียบประสิทธิภาพของ GPT-4 ไปยัง ChatGPT. การตรวจสอบนี้พยายามแก้ไขข้อกังวลของผู้ใช้ว่าประสิทธิภาพของโมเดลลดน้อยลง

การศึกษาของ Stanford ยืนยัน GPT-4 กำลังเริ่มโง่เขลา
เครดิต: Metaverse Post
ที่เกี่ยวข้อง: GPT-4 เมื่อเทียบกับ GPT-3: รุ่นใหม่มีอะไรให้บ้าง?

นักวิจัยได้ออกแบบการศึกษาเพื่อประเมินแบบจำลองในงานเฉพาะสี่อย่าง งานเหล่านี้รวมถึง:

  • คณิตศาสตร์: ความสามารถของแบบจำลองในการระบุว่าจำนวนที่กำหนดเป็นจำนวนเฉพาะหรือจำนวนประกอบ
  • การเข้ารหัส: การประเมินความสามารถของแบบจำลองเพื่อสร้างรหัสที่มีความหมายและใช้งานได้
  • ความอ่อนไหว: วิเคราะห์คำตอบของแบบจำลองต่อคำถามที่อาจมีเนื้อหาที่ "เป็นพิษ"
  • การให้เหตุผลทางภาพ: ทดสอบความถนัดของแบบจำลองสำหรับการแก้ปัญหาที่เกี่ยวข้องกับรูปแบบการมองเห็น โดยใช้เกณฑ์มาตรฐาน ARC ผู้เข้าร่วมต้องระบุรูปแบบในชุดภาพและนำไปใช้แก้ปัญหาตัวอย่างใหม่

ในสาขาคณิตศาสตร์ทั้ง GPT-4 เวอร์ชันที่ออกในเดือนมีนาคมและมิถุนายน แสดงให้เห็นความแม่นยำสม่ำเสมอในการกำหนดจำนวนเฉพาะและจำนวนประกอบ แบบจำลองเหล่านี้แสดงให้เห็นถึงความเชี่ยวชาญในการจัดการกับการคำนวณเหล่านี้ โดยให้ผลลัพธ์ที่เชื่อถือได้

ก้าวไปสู่การเขียนโค้ด GPT-4 แสดงความสามารถที่ได้รับการปรับปรุงในการสร้างโค้ดที่มีความหมายและใช้งานได้เมื่อเปรียบเทียบกับรุ่นก่อน ความสามารถในการสร้างโค้ดของโมเดลแสดงให้เห็นโอกาสที่ดี โดยนำเสนอประโยชน์ที่เป็นไปได้สำหรับนักพัฒนาและโปรแกรมเมอร์

ในส่วนของความอ่อนไหว การศึกษาได้ประเมินการตอบคำถามของแบบจำลองที่มีเนื้อหาที่อาจเป็นอันตรายหรือไม่เหมาะสม GPT-4 แสดงให้เห็นถึงการวิเคราะห์ความไวที่ได้รับการปรับปรุงและแสดงความสามารถที่ได้รับการปรับปรุงเพื่อให้การตอบสนองที่เหมาะสมในบริบทดังกล่าว สิ่งนี้แสดงถึงก้าวเชิงบวกในการจัดการกับข้อกังวลของผู้ใช้เกี่ยวกับผลลัพธ์ที่อาจเป็นปัญหา

สุดท้าย งานการให้เหตุผลด้วยภาพตามเกณฑ์มาตรฐาน ARC ก็เสร็จสมบูรณ์โดยทั้งคู่ GPT-4 รุ่นต่างๆ แบบจำลองระบุรูปแบบภายในชุดรูปภาพได้อย่างมีประสิทธิภาพ และแสดงให้เห็นถึงความสามารถในการใช้รูปแบบเหล่านี้เพื่อแก้ไขตัวอย่างใหม่ๆ สิ่งนี้แสดงให้เห็นถึงความสามารถในการทำความเข้าใจและการใช้เหตุผลด้วยภาพ

ผลปรากฏว่า GPT-4 มีความแม่นยำลดลง โดยมีเพียง 2% ของคำตอบที่ถูกต้องเท่านั้น สิ่งสำคัญคือต้องทราบว่าการทดสอบเฉพาะนี้จะประเมินความสามารถของแบบจำลองในการเรียกคืนข้อมูลเป็นหลัก แทนที่จะแสดงความสามารถทางคณิตศาสตร์โดยธรรมชาติ งานนี้เกี่ยวข้องกับการเรียกคืนหน่วยความจำ เนื่องจากแบบจำลองขาดความสามารถในการตรวจสอบความถูกต้องและการอนุมานการคำนวณ โดยเฉพาะอย่างยิ่งเมื่อพูดถึงจำนวนเฉพาะ

ChatGPT แสดงให้เห็นถึงการเติบโตอย่างมากในตัวชี้วัดประสิทธิภาพภายในเดือนมิถุนายน โดยแสดงให้เห็นการปรับปรุงที่โดดเด่นกว่าสิบเท่า แม้ว่าการศึกษาจะไม่ได้เจาะลึกถึงปัจจัยเฉพาะที่เอื้อต่อการเพิ่มประสิทธิภาพนี้ แต่ก็เน้นย้ำอยู่ ChatGPTความก้าวหน้าในด้านการใช้เหตุผลทางคณิตศาสตร์และความสามารถในการแก้ปัญหา

การศึกษาไม่ได้ประเมินคุณภาพหรือความถูกต้องของรหัสที่สร้างขึ้น แต่ดูเหมือนว่าโมเดลจะแสดงพฤติกรรมที่ "กำหนดเอง" มากกว่า โดยนำเสนอข้อมูลโค้ดโดยไม่รับประกันความถูกต้องในการทำงาน
ที่เกี่ยวข้อง: โปรแกรมปรับปรุงภาพ AI ที่ดีที่สุด 10+ รายการในปี 2023

คุณภาพของ GPT-4 และ ChatGPT ถูกตั้งคำถามหลังจากการวิเคราะห์ความสามารถในการโปรแกรมของพวกเขา อย่างไรก็ตาม เมื่อพิจารณาให้ละเอียดยิ่งขึ้นจะเผยให้เห็นถึงความแตกต่างอันน่าทึ่งซึ่งขัดแย้งกับความรู้สึกแรกพบ

ผู้เขียนไม่ได้ดำเนินการหรือตรวจสอบรหัสเพื่อความถูกต้อง การประเมินของพวกเขาขึ้นอยู่กับความถูกต้องของรหัส Python เท่านั้น นอกจากนี้ โมเดลดูเหมือนจะได้เรียนรู้เทคนิคการสร้างโค้ดเฉพาะโดยใช้มัณฑนากร ซึ่งขัดขวางการทำงานของโค้ดโดยไม่ได้ตั้งใจ

เป็นผลให้เห็นได้ชัดว่าทั้งผลลัพธ์และการทดลองไม่สามารถพิจารณาว่าเป็นหลักฐานของการเสื่อมสภาพของแบบจำลอง แบบจำลองจะแสดงให้เห็นถึงแนวทางที่แตกต่างกันในการสร้างการตอบสนอง ซึ่งอาจสะท้อนถึงรูปแบบต่างๆ ในการฝึกอบรมของพวกเขา

การทดสอบความสามารถด้านการเขียนโปรแกรมและคณิตศาสตร์ของ GPT-4 และ ChatGPT ได้ให้ความกระจ่างเกี่ยวกับการค้นพบที่น่าสนใจ ตรงกันข้ามกับสมมติฐานเบื้องต้น แบบจำลองเหล่านี้แสดงให้เห็นถึงการปรับปรุงที่โดดเด่นในบางด้าน ในขณะที่แสดงการเปลี่ยนแปลงพฤติกรรมในบางด้าน

เมื่อพูดถึงงานด้านการเขียนโปรแกรม ทั้งสองรุ่นแสดงการตอบสนองต่อข้อความแจ้งที่ "ผิด" ลดลงด้วย GPT-4 แสดงให้เห็นการลดลงมากกว่าสี่เท่าในกรณีเช่นนี้ นอกจากนี้ ในงานการใช้เหตุผลเชิงภาพ คุณภาพของการตอบสนองได้รับการปรับปรุงขึ้นสองสามเปอร์เซ็นต์สำหรับทั้งสองรุ่น ข้อสังเกตเหล่านี้บ่งชี้ถึงความก้าวหน้ามากกว่าการลดประสิทธิภาพลง

อย่างไรก็ตาม การประเมินทักษะทางคณิตศาสตร์ได้นำเสนอองค์ประกอบที่น่าสนใจ แบบจำลองให้ตัวเลขเฉพาะเป็นคำตอบอย่างสม่ำเสมอ ซึ่งบ่งชี้คำตอบว่า "ใช่" ที่สอดคล้องกัน อย่างไรก็ตาม เมื่อแนะนำจำนวนผสมให้กับตัวอย่าง ปรากฏว่าแบบจำลองเปลี่ยนพฤติกรรมและเริ่มให้คำตอบว่า "ไม่" ซึ่งบ่งบอกถึงความไม่แน่นอนมากกว่าคุณภาพที่ลดลง การทดสอบนั้นมีลักษณะเฉพาะและมีด้านเดียวและผลลัพธ์สามารถเกิดจากการเปลี่ยนแปลงพฤติกรรมของแบบจำลองมากกว่าการลดลงของคุณภาพ

สิ่งสำคัญคือต้องทราบว่าเวอร์ชัน API ได้รับการทดสอบ ไม่ใช่เวอร์ชันที่ใช้เบราว์เซอร์ แม้ว่าโมเดลในเบราว์เซอร์จะได้รับการปรับเปลี่ยนเพื่อเพิ่มประสิทธิภาพทรัพยากร แต่การศึกษาที่แนบมากลับไม่ได้เป็นเช่นนั้น defiพิสูจน์สมมติฐานนี้โดยสมบูรณ์ ผลกระทบของการเปลี่ยนแปลงดังกล่าวสามารถเทียบเคียงได้กับการลดระดับโมเดลจริง ซึ่งนำไปสู่ความท้าทายที่อาจเกิดขึ้นสำหรับผู้ใช้ที่ต้องพึ่งพาการทำงานเฉพาะด้าน แจ้ง และสั่งสมประสบการณ์

ในกรณีที่ GPT-4 แอปพลิเคชัน API การเบี่ยงเบนพฤติกรรมเหล่านี้สามารถส่งผลที่ตามมาที่จับต้องได้ รหัสที่พัฒนาขึ้นตามความต้องการและงานของผู้ใช้เฉพาะอาจไม่ทำงานตามที่ตั้งใจไว้อีกต่อไปหากโมเดลมีการเปลี่ยนแปลงพฤติกรรม

ขอแนะนำให้ผู้ใช้รวมแนวปฏิบัติการทดสอบที่คล้ายกันไว้ในเวิร์กโฟลว์ของตน ด้วยการสร้างชุดข้อความแจ้ง ข้อความประกอบ และผลลัพธ์ที่คาดหวัง ผู้ใช้สามารถตรวจสอบความสอดคล้องระหว่างความคาดหวังของตนกับการตอบสนองของแบบจำลองได้อย่างสม่ำเสมอ ทันทีที่ตรวจพบการเบี่ยงเบนใด ๆ จะสามารถใช้มาตรการที่เหมาะสมเพื่อแก้ไขสถานการณ์ได้

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
ตลาด รายงานข่าว เทคโนโลยี
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
May 8, 2024
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
ตลาด ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
May 8, 2024
แพลตฟอร์มการซื้อขาย Crypto BitMEX เปิดตัวการซื้อขายตัวเลือกด้วยค่าธรรมเนียม 0 และสิ่งจูงใจเงินสด
บัญชีธุรกิจ ตลาด รายงานข่าว
แพลตฟอร์มการซื้อขาย Crypto BitMEX เปิดตัวการซื้อขายตัวเลือกด้วยค่าธรรมเนียม 0 และสิ่งจูงใจเงินสด
May 8, 2024
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
รายงานข่าว เทคโนโลยี
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
May 8, 2024
CRYPTOMERIA LABS PTE. บจก.