การวิเคราะห์ เทคโนโลยี
สิงหาคม 01, 2023

Is GPT-4 กำลังจะ Supercharge Robotics ใช่ไหม? เหตุใด RT-2 จึงเปลี่ยนแปลงทุกสิ่ง

ในบทสรุป

Google DeepMind ได้พัฒนาแอปพลิเคชันแบบจำลองภาษาการมองเห็นสำหรับ การควบคุมหุ่นยนต์แบบ end-to-endโดยมุ่งเน้นไปที่ความสามารถในการสรุปและถ่ายทอดความรู้ข้ามโดเมน

โมเดล RT-2 ได้รับการออกแบบมาเพื่อสร้างลำดับที่สามารถเข้ารหัสข้อมูลจำนวนมหาศาล ได้รับการทดสอบในสถานการณ์ต่างๆ รวมถึงวัตถุที่ไม่คุ้นเคย พื้นหลังที่แตกต่างกัน และสภาพแวดล้อมที่หลากหลาย

แบบจำลอง RT-2 มีประสิทธิภาพดีกว่ารุ่นก่อนหน้าบางส่วนในการปรับให้เข้ากับเงื่อนไขใหม่ โดยส่วนใหญ่เป็นผลมาจากรูปแบบภาษาที่กว้างขวาง

Google DeepMind ตรวจสอบแอปพลิเคชันแบบจำลองภาษาการมองเห็นโดยมุ่งเน้นที่ศักยภาพในการควบคุมหุ่นยนต์แบบ end-to-end การตรวจสอบนี้ต้องการตรวจสอบว่าแบบจำลองเหล่านี้สามารถสรุปได้กว้างๆ หรือไม่ นอกจากนี้ ยังตรวจสอบว่าฟังก์ชันการรับรู้บางอย่าง เช่น การให้เหตุผลและการวางแผน ซึ่งมักเกี่ยวข้องกับรูปแบบภาษาที่กว้างขวางอาจปรากฏขึ้นในบริบทนี้หรือไม่

Is GPT-4 กำลังจะ Supercharge Robotics ใช่ไหม? เหตุใด RT-2 จึงเปลี่ยนแปลงทุกสิ่ง
เครดิต: Metaverse Post / Stable Diffusion

หลักฐานพื้นฐานที่อยู่เบื้องหลังการสำรวจนี้มีการเชื่อมโยงภายในกับลักษณะของโมเดลภาษาขนาดใหญ่ (LLM) เช่น โมเดลถูกออกแบบมาเพื่อสร้าง ลำดับใดๆ ก็ตามที่สามารถเข้ารหัสข้อมูลได้หลากหลาย ซึ่งไม่รวมถึงภาษาทั่วไปหรือรหัสโปรแกรมเช่น Python แต่รวมถึงคำสั่งเฉพาะด้วย ที่สามารถชี้นำการดำเนินการของหุ่นยนต์ได้.

พิจารณาความสามารถของโมเดลในการทำความเข้าใจและแปลลำดับสตริงเฉพาะเป็นคำสั่งหุ่นยนต์ที่ดำเนินการได้ ตามภาพประกอบ สตริงที่สร้างขึ้น เช่น “1 128 91 241 5 101 127 217” สามารถถอดรหัสได้ในลักษณะต่อไปนี้:

  • ตัวเลขเริ่มต้น XNUMX หมายความว่างานยังดำเนินอยู่และยังไม่เสร็จสิ้น
  • ตัวเลขสามตัวที่ตามมาคือ 128-91-241 กำหนดการเปลี่ยนแปลงแบบสัมพัทธ์และการทำให้เป็นมาตรฐานทั่วทั้งสามมิติของพื้นที่
  • ชุดสรุป 101-127-217 ระบุองศาการหมุนของส่วนแขนปฏิบัติการของหุ่นยนต์

การกำหนดค่าดังกล่าว เปิดใช้งานหุ่นยนต์ เพื่อแก้ไขสถานะของมันในหกองศาอิสระ วาดเส้นขนานเช่นเดียวกับ โมเดลภาษา รวบรวมแนวคิดและแนวคิดทั่วไปจากข้อมูลข้อความจำนวนมากบนอินเทอร์เน็ต โมเดล RT-2 ดึงความรู้จากข้อมูลบนเว็บเพื่อเป็นแนวทางในการดำเนินการของหุ่นยนต์

ความหมายที่เป็นไปได้ของสิ่งนี้มีนัยสำคัญ หากแบบจำลองสัมผัสกับชุดวิถีโคจรที่จัดไว้ซึ่งโดยพื้นฐานแล้วระบุว่า “เพื่อให้ได้ผลลัพธ์เฉพาะ กลไกการจับของหุ่นยนต์จำเป็นต้องเคลื่อนที่ในลักษณะเฉพาะ” นั่นก็หมายความว่าหม้อแปลงสามารถสร้างการกระทำที่สอดคล้องกันตาม อินพุตนี้

ลักษณะสำคัญภายใต้การประเมินคือความสามารถในการ ดำเนินงานใหม่ที่ไม่ครอบคลุมในระหว่างการฝึกอบรม. สามารถทดสอบได้หลายวิธี:

1) วัตถุที่ไม่คุ้นเคย: โมเดลสามารถทำซ้ำงานเมื่อนำไปใช้กับวัตถุที่ยังไม่ได้รับการฝึกฝนหรือไม่? ความสำเร็จในด้านนี้ขึ้นอยู่กับการแปลงฟีดภาพจากกล้องเป็นเวกเตอร์ ซึ่งโมเดลภาษาสามารถตีความได้ จากนั้น แบบจำลองควรจะสามารถแยกแยะความหมาย เชื่อมโยงคำศัพท์กับคู่หูในโลกแห่งความเป็นจริง จากนั้นจึงแนะนำแขนหุ่นยนต์ให้ดำเนินการตามนั้น

2) พื้นหลังที่แตกต่างกัน: โมเดลตอบสนองอย่างไรเมื่อฟีดภาพส่วนใหญ่ประกอบด้วยองค์ประกอบใหม่ เนื่องจากฉากหลังของตำแหน่งงานถูกเปลี่ยนทั้งหมด ตัวอย่างเช่น การเปลี่ยนแปลงของโต๊ะ หรือแม้แต่การเปลี่ยนแปลงของสภาพแสง

3) สภาพแวดล้อมที่หลากหลาย: ขยายจุดก่อนหน้า จะเกิดอะไรขึ้นถ้าตำแหน่งทั้งหมดแตกต่างกัน

สำหรับมนุษย์แล้ว สถานการณ์เหล่านี้ดูตรงไปตรงมา – โดยธรรมชาติแล้ว หากมีคนทิ้งกระป๋องในห้องของตนได้ พวกเขาก็ควรจะทำนอกบ้านได้เช่นกัน จริงไหม? (หมายเหตุด้านข้าง ฉันสังเกตเห็นบุคคลสองสามคนในสวนสาธารณะกำลังดิ้นรนกับงานที่ดูเหมือนง่ายนี้) แต่สำหรับเครื่องจักรแล้ว สิ่งเหล่านี้คือความท้าทายที่ต้องแก้ไข

ข้อมูลกราฟิกแสดงให้เห็นว่ารุ่น RT-2 มีประสิทธิภาพดีกว่ารุ่นก่อนบางส่วนเมื่อต้องปรับให้เข้ากับเงื่อนไขใหม่เหล่านี้ ความเหนือกว่านี้ส่วนใหญ่มาจากการใช้ประโยชน์จากรูปแบบภาษาที่กว้างขวาง ซึ่งเสริมด้วยข้อความมากมายที่ประมวลผลในระหว่างขั้นตอนการฝึกอบรม

ข้อจำกัดอย่างหนึ่งที่นักวิจัยเน้นคือโมเดลไม่สามารถปรับตัวเข้ากับทักษะใหม่ทั้งหมดได้ ตัวอย่างเช่น มันจะไม่เข้าใจการยกของจากด้านซ้ายหรือด้านขวา ถ้าสิ่งนี้ไม่ได้เป็นส่วนหนึ่งของการฝึก ในทางตรงกันข้าม รูปแบบภาษาเช่น ChatGPT ได้ผ่านพ้นอุปสรรคนี้ไปได้ค่อนข้างง่ายดาย. ด้วยการประมวลผลข้อมูลจำนวนมหาศาลจากงานต่างๆ มากมาย แบบจำลองเหล่านี้สามารถถอดรหัสและดำเนินการตามคำขอใหม่ได้อย่างรวดเร็ว แม้ว่าจะไม่เคยพบเจอมาก่อนก็ตาม

เดิมที หุ่นยนต์ทำงานโดยใช้ระบบที่สลับซับซ้อนผสมผสานกัน ในการตั้งค่าเหล่านี้ ระบบการให้เหตุผลระดับสูงและระบบการจัดการพื้นฐานมักมีปฏิสัมพันธ์กันโดยไม่มีการสื่อสารที่มีประสิทธิภาพ คล้ายกับการเล่นเกม ของ “โทรศัพท์เสีย”. ลองจินตนาการถึงการกำหนดแนวคิดของการกระทำทางจิตใจ จากนั้นจำเป็นต้องถ่ายทอดสิ่งนั้นไปยังร่างกายของคุณเพื่อดำเนินการ รุ่น RT-2 ที่เพิ่งเปิดตัวใหม่ช่วยเพิ่มความคล่องตัวในกระบวนการนี้ ช่วยให้โมเดลภาษาเดียวสามารถใช้เหตุผลที่ซับซ้อนได้ในขณะเดียวกันก็ส่งคำสั่งโดยตรงไปยังหุ่นยนต์ มันแสดงให้เห็นว่าด้วยข้อมูลการฝึกอบรมเพียงเล็กน้อย หุ่นยนต์สามารถดำเนินกิจกรรมที่ไม่ได้เรียนรู้มาอย่างชัดเจน

ตัวอย่างเช่น เพื่อให้ระบบเก่าสามารถทิ้งขยะได้ พวกเขาต้องการการฝึกอบรมเฉพาะเพื่อระบุ หยิบ และกำจัดขยะ ในทางตรงกันข้าม RT-2 มีความเข้าใจพื้นฐานเกี่ยวกับของเสียอยู่แล้ว สามารถจำแนกได้โดยไม่ต้องมีการฝึกอบรมตามเป้าหมาย และสามารถกำจัดได้แม้ไม่ได้รับคำแนะนำล่วงหน้าเกี่ยวกับการดำเนินการ พิจารณาคำถามที่เหมาะสมยิ่ง “อะไรคือของเสีย” นี่เป็นแนวคิดที่ท้าทายในการทำให้เป็นทางการ ถุงใส่ชิปหรือเปลือกกล้วยเปลี่ยนจากสิ่งของเป็นขยะหลังการบริโภค ความซับซ้อนดังกล่าวไม่ต้องการคำอธิบายที่ชัดเจนหรือการฝึกอบรมแยกต่างหาก RT-2 ถอดรหัสโดยใช้ความเข้าใจโดยธรรมชาติและดำเนินการตามนั้น

นี่คือเหตุผลที่ความก้าวหน้านี้มีความสำคัญและความหมายในอนาคต:

  • แบบจำลองภาษา เช่น RT-2 ทำหน้าที่เป็นกลไกการรู้คิดที่ครอบคลุมทั้งหมด ความสามารถในการสรุปและถ่ายโอนความรู้ข้ามโดเมนหมายความว่าสามารถปรับให้เข้ากับแอปพลิเคชันที่หลากหลายได้
  • นักวิจัยตั้งใจไม่ใช้แบบจำลองที่ทันสมัยที่สุดในการศึกษาของพวกเขา โดยมีเป้าหมายเพื่อให้แน่ใจว่าแต่ละแบบจำลองจะตอบสนองภายในไม่กี่วินาที (หมายถึงความถี่ในการทำงานของหุ่นยนต์อย่างน้อย 1 เฮิรตซ์) สมมุติว่าบูรณาการแบบจำลองเช่น GPT-4 และ โมเดลภาพที่เหนือกว่า สามารถให้ผลลัพธ์ที่น่าสนใจมากยิ่งขึ้น
  • ข้อมูลที่ครอบคลุมยังคงเบาบาง อย่างไรก็ตาม การเปลี่ยนจากสถานะปัจจุบันเป็นชุดข้อมูลแบบองค์รวม ตั้งแต่สายการผลิตในโรงงานไปจนถึงงานบ้าน คาดว่าจะใช้เวลาประมาณหนึ่งถึงสองปี นี่เป็นการประมาณการเบื้องต้น ดังนั้นผู้เชี่ยวชาญในสาขานี้อาจให้ความแม่นยำมากขึ้น การไหลเข้าของข้อมูลนี้จะผลักดันความก้าวหน้าที่สำคัญอย่างหลีกเลี่ยงไม่ได้
  • ในขณะที่ RT-2 ได้รับการพัฒนาโดยใช้เทคนิคเฉพาะ แต่ก็มีวิธีการอื่นๆ อีกมากมาย อนาคตน่าจะมีการผสมผสานของวิธีการเหล่านี้เพิ่มเติม เพิ่มขีดความสามารถของหุ่นยนต์. แนวทางหนึ่งในอนาคตอาจเกี่ยวข้องกับการฝึกหุ่นยนต์โดยใช้วิดีโอกิจกรรมของมนุษย์ ไม่จำเป็นต้องมีการบันทึกพิเศษ – แพลตฟอร์มเช่น TikTok และ YouTube มีที่เก็บเนื้อหาดังกล่าวมากมาย

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
ตลาด รายงานข่าว เทคโนโลยี
Nexo เริ่มต้น 'The Hunt' เพื่อให้รางวัลแก่ผู้ใช้ด้วยโทเค็น NEXO มูลค่า 12 ล้านเหรียญสหรัฐสำหรับการมีส่วนร่วมกับระบบนิเวศ
May 8, 2024
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
ตลาด ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
Revolut X Exchange ของ Revolut ดึงดูดผู้ค้า Crypto ด้วยค่าธรรมเนียม Zero Maker และการวิเคราะห์ขั้นสูง
May 8, 2024
แพลตฟอร์มการซื้อขาย Crypto BitMEX เปิดตัวการซื้อขายตัวเลือกด้วยค่าธรรมเนียม 0 และสิ่งจูงใจเงินสด
บัญชีธุรกิจ ตลาด รายงานข่าว
แพลตฟอร์มการซื้อขาย Crypto BitMEX เปิดตัวการซื้อขายตัวเลือกด้วยค่าธรรมเนียม 0 และสิ่งจูงใจเงินสด
May 8, 2024
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
รายงานข่าว เทคโนโลยี
Lisk เปลี่ยนไปใช้ Ethereum Layer 2 อย่างเป็นทางการและเปิดตัว Core v4.0.6
May 8, 2024
CRYPTOMERIA LABS PTE. บจก.