Is GPT-4 กำลังจะ Supercharge Robotics ใช่ไหม? เหตุใด RT-2 จึงเปลี่ยนแปลงทุกสิ่ง
ในบทสรุป
Google DeepMind ได้พัฒนาแอปพลิเคชันแบบจำลองภาษาการมองเห็นสำหรับ การควบคุมหุ่นยนต์แบบ end-to-endโดยมุ่งเน้นไปที่ความสามารถในการสรุปและถ่ายทอดความรู้ข้ามโดเมน
โมเดล RT-2 ได้รับการออกแบบมาเพื่อสร้างลำดับที่สามารถเข้ารหัสข้อมูลจำนวนมหาศาล ได้รับการทดสอบในสถานการณ์ต่างๆ รวมถึงวัตถุที่ไม่คุ้นเคย พื้นหลังที่แตกต่างกัน และสภาพแวดล้อมที่หลากหลาย
แบบจำลอง RT-2 มีประสิทธิภาพดีกว่ารุ่นก่อนหน้าบางส่วนในการปรับให้เข้ากับเงื่อนไขใหม่ โดยส่วนใหญ่เป็นผลมาจากรูปแบบภาษาที่กว้างขวาง
Google DeepMind ตรวจสอบแอปพลิเคชันแบบจำลองภาษาการมองเห็นโดยมุ่งเน้นที่ศักยภาพในการควบคุมหุ่นยนต์แบบ end-to-end การตรวจสอบนี้ต้องการตรวจสอบว่าแบบจำลองเหล่านี้สามารถสรุปได้กว้างๆ หรือไม่ นอกจากนี้ ยังตรวจสอบว่าฟังก์ชันการรับรู้บางอย่าง เช่น การให้เหตุผลและการวางแผน ซึ่งมักเกี่ยวข้องกับรูปแบบภาษาที่กว้างขวางอาจปรากฏขึ้นในบริบทนี้หรือไม่
หลักฐานพื้นฐานที่อยู่เบื้องหลังการสำรวจนี้มีการเชื่อมโยงภายในกับลักษณะของโมเดลภาษาขนาดใหญ่ (LLM) เช่น โมเดลถูกออกแบบมาเพื่อสร้าง ลำดับใดๆ ก็ตามที่สามารถเข้ารหัสข้อมูลได้หลากหลาย ซึ่งไม่รวมถึงภาษาทั่วไปหรือรหัสโปรแกรมเช่น Python แต่รวมถึงคำสั่งเฉพาะด้วย ที่สามารถชี้นำการดำเนินการของหุ่นยนต์ได้.
พิจารณาความสามารถของโมเดลในการทำความเข้าใจและแปลลำดับสตริงเฉพาะเป็นคำสั่งหุ่นยนต์ที่ดำเนินการได้ ตามภาพประกอบ สตริงที่สร้างขึ้น เช่น “1 128 91 241 5 101 127 217” สามารถถอดรหัสได้ในลักษณะต่อไปนี้:
- ตัวเลขเริ่มต้น XNUMX หมายความว่างานยังดำเนินอยู่และยังไม่เสร็จสิ้น
- ตัวเลขสามตัวที่ตามมาคือ 128-91-241 กำหนดการเปลี่ยนแปลงแบบสัมพัทธ์และการทำให้เป็นมาตรฐานทั่วทั้งสามมิติของพื้นที่
- ชุดสรุป 101-127-217 ระบุองศาการหมุนของส่วนแขนปฏิบัติการของหุ่นยนต์
การกำหนดค่าดังกล่าว เปิดใช้งานหุ่นยนต์ เพื่อแก้ไขสถานะของมันในหกองศาอิสระ วาดเส้นขนานเช่นเดียวกับ โมเดลภาษา รวบรวมแนวคิดและแนวคิดทั่วไปจากข้อมูลข้อความจำนวนมากบนอินเทอร์เน็ต โมเดล RT-2 ดึงความรู้จากข้อมูลบนเว็บเพื่อเป็นแนวทางในการดำเนินการของหุ่นยนต์
ความหมายที่เป็นไปได้ของสิ่งนี้มีนัยสำคัญ หากแบบจำลองสัมผัสกับชุดวิถีโคจรที่จัดไว้ซึ่งโดยพื้นฐานแล้วระบุว่า “เพื่อให้ได้ผลลัพธ์เฉพาะ กลไกการจับของหุ่นยนต์จำเป็นต้องเคลื่อนที่ในลักษณะเฉพาะ” นั่นก็หมายความว่าหม้อแปลงสามารถสร้างการกระทำที่สอดคล้องกันตาม อินพุตนี้
ลักษณะสำคัญภายใต้การประเมินคือความสามารถในการ ดำเนินงานใหม่ที่ไม่ครอบคลุมในระหว่างการฝึกอบรม. สามารถทดสอบได้หลายวิธี:
1) วัตถุที่ไม่คุ้นเคย: โมเดลสามารถทำซ้ำงานเมื่อนำไปใช้กับวัตถุที่ยังไม่ได้รับการฝึกฝนหรือไม่? ความสำเร็จในด้านนี้ขึ้นอยู่กับการแปลงฟีดภาพจากกล้องเป็นเวกเตอร์ ซึ่งโมเดลภาษาสามารถตีความได้ จากนั้น แบบจำลองควรจะสามารถแยกแยะความหมาย เชื่อมโยงคำศัพท์กับคู่หูในโลกแห่งความเป็นจริง จากนั้นจึงแนะนำแขนหุ่นยนต์ให้ดำเนินการตามนั้น
2) พื้นหลังที่แตกต่างกัน: โมเดลตอบสนองอย่างไรเมื่อฟีดภาพส่วนใหญ่ประกอบด้วยองค์ประกอบใหม่ เนื่องจากฉากหลังของตำแหน่งงานถูกเปลี่ยนทั้งหมด ตัวอย่างเช่น การเปลี่ยนแปลงของโต๊ะ หรือแม้แต่การเปลี่ยนแปลงของสภาพแสง
3) สภาพแวดล้อมที่หลากหลาย: ขยายจุดก่อนหน้า จะเกิดอะไรขึ้นถ้าตำแหน่งทั้งหมดแตกต่างกัน
สำหรับมนุษย์แล้ว สถานการณ์เหล่านี้ดูตรงไปตรงมา – โดยธรรมชาติแล้ว หากมีคนทิ้งกระป๋องในห้องของตนได้ พวกเขาก็ควรจะทำนอกบ้านได้เช่นกัน จริงไหม? (หมายเหตุด้านข้าง ฉันสังเกตเห็นบุคคลสองสามคนในสวนสาธารณะกำลังดิ้นรนกับงานที่ดูเหมือนง่ายนี้) แต่สำหรับเครื่องจักรแล้ว สิ่งเหล่านี้คือความท้าทายที่ต้องแก้ไข
ข้อมูลกราฟิกแสดงให้เห็นว่ารุ่น RT-2 มีประสิทธิภาพดีกว่ารุ่นก่อนบางส่วนเมื่อต้องปรับให้เข้ากับเงื่อนไขใหม่เหล่านี้ ความเหนือกว่านี้ส่วนใหญ่มาจากการใช้ประโยชน์จากรูปแบบภาษาที่กว้างขวาง ซึ่งเสริมด้วยข้อความมากมายที่ประมวลผลในระหว่างขั้นตอนการฝึกอบรม
ข้อจำกัดอย่างหนึ่งที่นักวิจัยเน้นคือโมเดลไม่สามารถปรับตัวเข้ากับทักษะใหม่ทั้งหมดได้ ตัวอย่างเช่น มันจะไม่เข้าใจการยกของจากด้านซ้ายหรือด้านขวา ถ้าสิ่งนี้ไม่ได้เป็นส่วนหนึ่งของการฝึก ในทางตรงกันข้าม รูปแบบภาษาเช่น ChatGPT ได้ผ่านพ้นอุปสรรคนี้ไปได้ค่อนข้างง่ายดาย. ด้วยการประมวลผลข้อมูลจำนวนมหาศาลจากงานต่างๆ มากมาย แบบจำลองเหล่านี้สามารถถอดรหัสและดำเนินการตามคำขอใหม่ได้อย่างรวดเร็ว แม้ว่าจะไม่เคยพบเจอมาก่อนก็ตาม
เดิมที หุ่นยนต์ทำงานโดยใช้ระบบที่สลับซับซ้อนผสมผสานกัน ในการตั้งค่าเหล่านี้ ระบบการให้เหตุผลระดับสูงและระบบการจัดการพื้นฐานมักมีปฏิสัมพันธ์กันโดยไม่มีการสื่อสารที่มีประสิทธิภาพ คล้ายกับการเล่นเกม ของ “โทรศัพท์เสีย”. ลองจินตนาการถึงการกำหนดแนวคิดของการกระทำทางจิตใจ จากนั้นจำเป็นต้องถ่ายทอดสิ่งนั้นไปยังร่างกายของคุณเพื่อดำเนินการ รุ่น RT-2 ที่เพิ่งเปิดตัวใหม่ช่วยเพิ่มความคล่องตัวในกระบวนการนี้ ช่วยให้โมเดลภาษาเดียวสามารถใช้เหตุผลที่ซับซ้อนได้ในขณะเดียวกันก็ส่งคำสั่งโดยตรงไปยังหุ่นยนต์ มันแสดงให้เห็นว่าด้วยข้อมูลการฝึกอบรมเพียงเล็กน้อย หุ่นยนต์สามารถดำเนินกิจกรรมที่ไม่ได้เรียนรู้มาอย่างชัดเจน
ตัวอย่างเช่น เพื่อให้ระบบเก่าสามารถทิ้งขยะได้ พวกเขาต้องการการฝึกอบรมเฉพาะเพื่อระบุ หยิบ และกำจัดขยะ ในทางตรงกันข้าม RT-2 มีความเข้าใจพื้นฐานเกี่ยวกับของเสียอยู่แล้ว สามารถจำแนกได้โดยไม่ต้องมีการฝึกอบรมตามเป้าหมาย และสามารถกำจัดได้แม้ไม่ได้รับคำแนะนำล่วงหน้าเกี่ยวกับการดำเนินการ พิจารณาคำถามที่เหมาะสมยิ่ง “อะไรคือของเสีย” นี่เป็นแนวคิดที่ท้าทายในการทำให้เป็นทางการ ถุงใส่ชิปหรือเปลือกกล้วยเปลี่ยนจากสิ่งของเป็นขยะหลังการบริโภค ความซับซ้อนดังกล่าวไม่ต้องการคำอธิบายที่ชัดเจนหรือการฝึกอบรมแยกต่างหาก RT-2 ถอดรหัสโดยใช้ความเข้าใจโดยธรรมชาติและดำเนินการตามนั้น
นี่คือเหตุผลที่ความก้าวหน้านี้มีความสำคัญและความหมายในอนาคต:
- แบบจำลองภาษา เช่น RT-2 ทำหน้าที่เป็นกลไกการรู้คิดที่ครอบคลุมทั้งหมด ความสามารถในการสรุปและถ่ายโอนความรู้ข้ามโดเมนหมายความว่าสามารถปรับให้เข้ากับแอปพลิเคชันที่หลากหลายได้
- นักวิจัยตั้งใจไม่ใช้แบบจำลองที่ทันสมัยที่สุดในการศึกษาของพวกเขา โดยมีเป้าหมายเพื่อให้แน่ใจว่าแต่ละแบบจำลองจะตอบสนองภายในไม่กี่วินาที (หมายถึงความถี่ในการทำงานของหุ่นยนต์อย่างน้อย 1 เฮิรตซ์) สมมุติว่าบูรณาการแบบจำลองเช่น GPT-4 และ โมเดลภาพที่เหนือกว่า สามารถให้ผลลัพธ์ที่น่าสนใจมากยิ่งขึ้น
- ข้อมูลที่ครอบคลุมยังคงเบาบาง อย่างไรก็ตาม การเปลี่ยนจากสถานะปัจจุบันเป็นชุดข้อมูลแบบองค์รวม ตั้งแต่สายการผลิตในโรงงานไปจนถึงงานบ้าน คาดว่าจะใช้เวลาประมาณหนึ่งถึงสองปี นี่เป็นการประมาณการเบื้องต้น ดังนั้นผู้เชี่ยวชาญในสาขานี้อาจให้ความแม่นยำมากขึ้น การไหลเข้าของข้อมูลนี้จะผลักดันความก้าวหน้าที่สำคัญอย่างหลีกเลี่ยงไม่ได้
- ในขณะที่ RT-2 ได้รับการพัฒนาโดยใช้เทคนิคเฉพาะ แต่ก็มีวิธีการอื่นๆ อีกมากมาย อนาคตน่าจะมีการผสมผสานของวิธีการเหล่านี้เพิ่มเติม เพิ่มขีดความสามารถของหุ่นยนต์. แนวทางหนึ่งในอนาคตอาจเกี่ยวข้องกับการฝึกหุ่นยนต์โดยใช้วิดีโอกิจกรรมของมนุษย์ ไม่จำเป็นต้องมีการบันทึกพิเศษ – แพลตฟอร์มเช่น TikTok และ YouTube มีที่เก็บเนื้อหาดังกล่าวมากมาย
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต