รายงานข่าว เทคโนโลยี
April 05, 2023

8 สิ่งที่คุณควรรู้เกี่ยวกับโมเดลภาษาขนาดใหญ่

ในบทสรุป

โมเดลภาษาขนาดใหญ่ (ปริญญามหาบัณฑิต) ใช้เพื่อสำรวจความแตกต่างของภาษาธรรมชาติ ปรับปรุงความสามารถของเครื่องจักรในการทำความเข้าใจและสร้างข้อความ และทำงานอัตโนมัติ เช่น การจดจำเสียงและการแปลด้วยเครื่อง

ไม่มีวิธีง่ายๆ ในการจัดการ LLMs แต่พวกมันก็มีความสามารถเทียบเท่ากับมนุษย์

ด้วยกระแสการพัฒนาของการประมวลผลภาษาธรรมชาติและการใช้งานในธุรกิจ จึงมีความสนใจเพิ่มขึ้นในโมเดลภาษาขนาดใหญ่ โมเดลเหล่านี้ใช้เพื่อสำรวจความแตกต่างของภาษาธรรมชาติ ปรับปรุงความสามารถของเครื่องในการทำความเข้าใจและสร้างข้อความและทำงานอัตโนมัติ เช่น การจดจำเสียงและการแปลด้วยเครื่อง สิ่งสำคัญ XNUMX ประการที่คุณควรทราบเกี่ยวกับโมเดลภาษาขนาดใหญ่ (LLM) มีดังนี้

10 สิ่งที่คุณควรรู้เกี่ยวกับโมเดลภาษาขนาดใหญ่
@Midjourney / ทะกะ#4076

LLMs นั้น "มีความสามารถ" มากขึ้นเมื่อต้นทุนเพิ่มสูงขึ้น

LLMs คาดว่าจะ "มีความสามารถ" มากขึ้นด้วยต้นทุนที่เพิ่มขึ้น แม้จะไม่มีนวัตกรรมเจ๋งๆ ก็ตาม สิ่งสำคัญที่นี่คือความสามารถในการคาดเดาซึ่งแสดงในบทความเกี่ยวกับ GPT-4: สอนโมเดลขนาดเล็ก 0.1-XNUMX โมเดลด้วยงบประมาณ XNUMX% ของโมเดลสุดท้าย จากนั้นจึงคาดการณ์สำหรับโมเดลขนาดใหญ่ตามสิ่งนี้ สำหรับการประเมินความฉงนสนเท่ห์และเมตริกทั่วไปในตัวอย่างย่อยของงานหนึ่งๆ การคาดคะเนดังกล่าวมีความแม่นยำมาก ความสามารถในการคาดการณ์นี้มีความสำคัญสำหรับธุรกิจและองค์กรที่ต้องพึ่งพา LLM ในการดำเนินงาน เนื่องจากสามารถกำหนดงบประมาณและวางแผนสำหรับค่าใช้จ่ายในอนาคตได้ อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่าแม้ว่าต้นทุนที่เพิ่มขึ้นอาจนำไปสู่ความสามารถที่ดีขึ้น แต่ในที่สุด อัตราการปรับปรุงอาจคงที่ ทำให้จำเป็นต้องลงทุนในนวัตกรรมใหม่เพื่อให้ก้าวหน้าต่อไป

ดูอย่างรวดเร็วว่าอย่างไร GPT โมเดลจะปรับเปลี่ยนเมื่อต้นทุนการฝึกอบรมเพิ่มขึ้น

อย่างไรก็ตาม ทักษะที่สำคัญเฉพาะมักจะเกิดขึ้นโดยไม่คาดคิดเป็นผลพลอยได้ของการเพิ่มขึ้น ค่าอบรม (การฝึกที่ยาวนานขึ้น ข้อมูลมากขึ้น โมเดลที่ใหญ่ขึ้น) — แทบจะเป็นไปไม่ได้เลยที่จะคาดการณ์ว่าโมเดลจะเริ่มทำงานบางอย่างเมื่อใด เราได้สำรวจหัวข้อในเชิงลึกมากขึ้นในของเรา บทความ เกี่ยวกับประวัติความเป็นมาของการพัฒนาของ GPT โมเดล รูปภาพแสดงการกระจายคุณภาพของแบบจำลองที่เพิ่มขึ้นในงานต่างๆ เป็นเพียงรุ่นใหญ่เท่านั้นที่สามารถเรียนรู้การทำงานต่างๆ ได้ กราฟนี้เน้นถึงผลกระทบที่สำคัญของการขยายขนาดของ GPT โมเดล ในการปฏิบัติงานในงานต่างๆ อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่าสิ่งนี้มาพร้อมกับต้นทุนของทรัพยากรการคำนวณที่เพิ่มขึ้นและผลกระทบต่อสิ่งแวดล้อม

ดูอย่างรวดเร็วว่าอย่างไร GPT โมเดลจะปรับเปลี่ยนเมื่อต้นทุนการฝึกอบรมเพิ่มขึ้น

LLMs เรียนรู้ที่จะเล่นเกมกระดานโดยใช้การเป็นตัวแทนของโลกภายนอก

LLM มักจะเรียนรู้และใช้การเป็นตัวแทนของโลกภายนอก มีตัวอย่างมากมายที่นี่ และนี่คือหนึ่งในนั้น: โมเดลที่ได้รับการฝึกฝน เพื่อเล่นเกมกระดานตามคำอธิบายการเคลื่อนไหวแต่ละครั้งโดยไม่ต้องเห็นภาพสนามเด็กเล่น เรียนรู้การนำเสนอภายในของสถานะของกระดานในแต่ละการเคลื่อนไหว การแสดงภายในเหล่านี้สามารถนำมาใช้ได้ ทำนายอนาคต การเคลื่อนไหวและผลลัพธ์ทำให้โมเดลสามารถเล่นเกมได้ในระดับสูง ความสามารถในการเรียนรู้และใช้การนำเสนอนี้เป็นกุญแจสำคัญ ด้านการเรียนรู้ของเครื่อง และปัญญาประดิษฐ์

ไม่มีวิธีง่ายๆ ในการจัดการ LLM

ไม่มีวิธีที่เชื่อถือได้ในการควบคุมพฤติกรรม LLM แม้ว่าจะมีความคืบหน้าในการทำความเข้าใจและบรรเทาปัญหาต่างๆ ไปบ้างแล้ว (รวมถึง ChatGPT และ GPT-4 ด้วยความช่วยเหลือของข้อเสนอแนะ) ไม่มีความเห็นพ้องต้องกันว่าเราจะแก้ปัญหาได้หรือไม่ มีความกังวลเพิ่มมากขึ้นว่าสิ่งนี้จะกลายเป็นปัญหาใหญ่ที่อาจเกิดภัยพิบัติได้ในอนาคตเมื่อมีการสร้างระบบที่ใหญ่ขึ้น ดังนั้น นักวิจัยจึงกำลังสำรวจวิธีการใหม่ๆ เพื่อให้แน่ใจว่าระบบ AI สอดคล้องกับคุณค่าและเป้าหมายของมนุษย์ เช่น การจัดตำแหน่งคุณค่าและวิศวกรรมการให้รางวัล อย่างไรก็ตาม ยังคงเป็นงานที่ท้าทายในการรับประกัน ความปลอดภัยและความน่าเชื่อถือของ LLM ในสถานการณ์จริงที่ซับซ้อน

อ่านเพิ่มเติม: OpenAI รวมทีมผู้เชี่ยวชาญกว่า 50 คนเพื่อเพิ่มประสิทธิภาพ GPT-4ความปลอดภัย

ผู้เชี่ยวชาญมีปัญหาในการอธิบายว่า LLM ทำงานอย่างไร

ผู้เชี่ยวชาญยังไม่สามารถตีความการทำงานภายในของ LLM ไม่มีเทคนิคใดที่จะช่วยให้เราระบุได้อย่างน่าพอใจว่าความรู้ เหตุผล หรือเป้าหมายประเภทใดที่แบบจำลองใช้เมื่อสร้างผลลัพธ์ใดๆ การขาดความสามารถในการตีความทำให้เกิดความกังวลเกี่ยวกับความน่าเชื่อถือและความยุติธรรมของการตัดสินใจของ LLM โดยเฉพาะอย่างยิ่งในการใช้งานที่มีเดิมพันสูง เช่น กระบวนการยุติธรรมทางอาญาหรือการให้คะแนนเครดิต นอกจากนี้ยังเน้นย้ำถึงความจำเป็นในการวิจัยเพิ่มเติมเกี่ยวกับการพัฒนาโมเดล AI ที่โปร่งใสและรับผิดชอบมากขึ้น

LLM นั้นมีความสามารถเทียบเท่ากับมนุษย์

แม้ว่า LLM จะได้รับการฝึกอบรมเป็นหลัก เลียนแบบพฤติกรรมของมนุษย์เมื่อเขียนข้อความพวกเขามีศักยภาพที่จะเหนือกว่าเราในหลาย ๆ งาน สิ่งนี้สามารถเห็นได้เมื่อเล่นหมากรุกหรือไป นี่เป็นเพราะความสามารถในการวิเคราะห์ข้อมูลจำนวนมหาศาลและตัดสินใจโดยอาศัยการวิเคราะห์ด้วยความเร็วที่มนุษย์ไม่สามารถเทียบเคียงได้ อย่างไรก็ตาม LLM ยังคงขาดความคิดสร้างสรรค์และสัญชาตญาณที่มนุษย์มี ซึ่งทำให้ไม่เหมาะสมกับงานหลายอย่าง

อ่านเพิ่มเติม: OpenAI รวมทีมผู้เชี่ยวชาญกว่า 50 คนเพื่อเพิ่มประสิทธิภาพ GPT-4ความปลอดภัย

LLM ต้องเป็นมากกว่าแค่

LLM ต้องไม่แสดงค่าของผู้สร้างหรือค่าที่เข้ารหัสในการเลือกจากอินเทอร์เน็ต พวกเขาไม่ควรทำซ้ำแบบแผนหรือทฤษฎีสมคบคิดหรือพยายามที่จะรุกรานใครก็ตาม LLMs ควรได้รับการออกแบบมาเพื่อให้ข้อมูลที่เป็นกลางและเป็นข้อเท็จจริงแก่ผู้ใช้ในขณะที่เคารพความแตกต่างทางวัฒนธรรมและสังคม นอกจากนี้ พวกเขาควรได้รับการทดสอบและติดตามอย่างสม่ำเสมอเพื่อให้แน่ใจว่ายังคงเป็นไปตามมาตรฐานเหล่านี้

นางแบบ 'ฉลาด' กว่าที่ผู้คนคิดจากความประทับใจแรกพบ

การประมาณความสามารถของแบบจำลองตามการแสดงผลครั้งแรกมักทำให้เข้าใจผิด บ่อยครั้ง คุณต้องคิดคำตอบที่ถูกต้อง แนะนำรุ่น และอาจแสดงตัวอย่าง และมันจะเริ่มรับมือได้ดีขึ้นมาก นั่นคือมัน "ฉลาดกว่า" กว่าที่เห็นได้อย่างรวดเร็วในครั้งแรก ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องให้โอกาสแบบจำลองอย่างยุติธรรมและจัดหาทรัพยากรที่จำเป็นเพื่อให้ทำงานได้ดีที่สุด ด้วยแนวทางที่ถูกต้อง แม้แต่โมเดลที่ดูเหมือนไม่พอเพียงก็ทำให้เราประหลาดใจด้วยความสามารถของพวกเขา

หากเรามุ่งเน้นไปที่ตัวอย่างงาน 202 งานจากชุดข้อมูล BIG-Bench (โดยเฉพาะทำให้ยากต่อการทดสอบ) โมเดลภาษา จากและถึง) จากนั้นตามกฎแล้ว (โดยเฉลี่ย) โมเดลจะแสดงคุณภาพที่เพิ่มขึ้นตามขนาดที่เพิ่มขึ้น แต่แต่ละหน่วยเมตริกในงานสามารถ:

  • ค่อยๆ ดีขึ้น
  • ปรับปรุงอย่างมาก
  • ยังคงไม่เปลี่ยนแปลง
  • ลดลง
  • แสดงว่าไม่มีความสัมพันธ์กัน

ทั้งหมดนี้นำไปสู่ความเป็นไปไม่ได้ที่จะคาดการณ์ประสิทธิภาพของระบบในอนาคตอย่างมั่นใจ ส่วนสีเขียวนั้นน่าสนใจเป็นพิเศษ — นี่คือจุดที่ตัวบ่งชี้คุณภาพพุ่งขึ้นอย่างรวดเร็วโดยไม่มีเหตุผลเลย

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Morph เปิดตัว Holesky Testnet พร้อมการบูรณาการ zkEVM ในแง่ดี กลไกบริดจ์ และคุณสมบัติเครือข่ายซีเควนเซอร์แบบกระจายอำนาจ
รายงานข่าว เทคโนโลยี
Morph เปิดตัว Holesky Testnet พร้อมการบูรณาการ zkEVM ในแง่ดี กลไกบริดจ์ และคุณสมบัติเครือข่ายซีเควนเซอร์แบบกระจายอำนาจ
May 6, 2024
Robinhood Crypto ได้รับการแจ้งเตือนจาก Wells จากสำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์เกี่ยวกับการละเมิดหลักทรัพย์ที่ถูกกล่าวหา
ตลาด รายงานข่าว เทคโนโลยี
Robinhood Crypto ได้รับการแจ้งเตือนจาก Wells จากสำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์เกี่ยวกับการละเมิดหลักทรัพย์ที่ถูกกล่าวหา
May 6, 2024
QuickSwap ปรับใช้บน X Layer Mainnet และขยายเครือข่าย Polygon CDK ด้วยการเปิดตัว Citadel
รายงานข่าว เทคโนโลยี
QuickSwap ปรับใช้บน X Layer Mainnet และขยายเครือข่าย Polygon CDK ด้วยการเปิดตัว Citadel 
May 6, 2024
เครือข่ายเลเยอร์ 2 Linea เริ่มต้นการอ้างสิทธิ์โทเค็น ZERO ของ ZeroLend Airdrop ผู้ใช้และนักลงทุน
ตลาด รายงานข่าว เทคโนโลยี
เครือข่ายเลเยอร์ 2 Linea เริ่มต้นการอ้างสิทธิ์โทเค็น ZERO ของ ZeroLend Airdrop ผู้ใช้และนักลงทุน
May 6, 2024
CRYPTOMERIA LABS PTE. บจก.