บริษัท Physical Intelligence นำเสนอสถาปัตยกรรม MEM เพื่อให้หุ่นยนต์มีหน่วยความจำที่จำเป็นสำหรับงานในโลกแห่งความเป็นจริง
ในบทสรุป
นักวิจัยได้พัฒนาระบบหน่วยความจำแบบหลายระดับ (Multi-Scale Embodied Memory) ซึ่งเป็นระบบที่ช่วยให้หุ่นยนต์มีหน่วยความจำทั้งระยะสั้นและระยะยาว ทำให้พวกมันสามารถติดตามความคืบหน้าและทำงานที่ซับซ้อนให้สำเร็จได้ แทนที่จะแค่ทำการกระทำแบบแยกส่วน
เป็นเวลาหลายปีแล้วที่ความฝันเกี่ยวกับหุ่นยนต์ช่วยงานบ้านที่ให้ความช่วยเหลือได้อย่างแท้จริงนั้นใกล้เข้ามาอย่างน่าเหลือเชื่อ หุ่นยนต์สามารถทำตามคำสั่งต่างๆ ได้แล้ว เช่น “ล้างกระทะ” “พับผ้า” หรือ “ทำแซนด์วิช” ในสภาพแวดล้อมของห้องปฏิบัติการ ระบบเหล่านี้แสดงให้เห็นถึงความคล่องแคล่วและความแม่นยำที่น่าประทับใจ แต่ถึงแม้จะมีความก้าวหน้าอย่างรวดเร็วในแบบจำลองพื้นฐานของหุ่นยนต์ สิ่งที่ขาดหายไปอย่างสำคัญก็คือ หน่วยความจำ
หุ่นยนต์ที่สามารถทำงานเพียงอย่างเดียวได้นั้น ไม่เหมือนกับหุ่นยนต์ที่สามารถทำงานให้เสร็จสมบูรณ์ได้ การทำความสะอาดห้องครัวทั้งหมด การปรุงอาหาร หรือการเตรียมส่วนผสมสำหรับสูตรอาหารนั้น ต้องการมากกว่าทักษะเฉพาะด้าน มันต้องการความต่อเนื่อง — ความสามารถในการจดจำว่าได้ทำอะไรไปแล้วบ้าง ยังต้องทำอะไรต่อไป และทุกอย่างอยู่ที่ไหน หากปราศจากความต่อเนื่องนี้ แม้แต่หุ่นยนต์ที่มีความสามารถมากที่สุดก็อาจทำงานไม่ได้เรื่องอย่างน่าประหลาดใจ
นี่คือความท้าทายที่นักวิจัยจาก Physical Intelligence กำลังพยายามแก้ไขด้วยสถาปัตยกรรมใหม่ที่เรียกว่า Multi-Scale Embodied Memory (MEM) ซึ่งเป็นระบบที่ออกแบบมาเพื่อให้หุ่นยนต์มีทั้งหน่วยความจำระยะสั้นและระยะยาว เพื่อให้พวกมันสามารถทำงานที่ใช้เวลานานหลายนาทีแทนที่จะเป็นเพียงไม่กี่วินาที
ผลลัพธ์ชี้ให้เห็นถึงสิ่งสำคัญอย่างหนึ่ง นั่นคือ อนาคตของหุ่นยนต์อาจขึ้นอยู่กับสถาปัตยกรรมทางปัญญาที่ดีกว่า มากกว่าแค่การพัฒนาแขนกลที่ดีขึ้น
หุ่นยนต์รุ่นใหม่ในปัจจุบันมีทักษะการเคลื่อนไหวที่น่าทึ่งมากมาย พวกมันสามารถจับวัตถุที่เปราะบาง ใช้เครื่องมือ และเคลื่อนที่ในสภาพแวดล้อมที่ซับซ้อนได้ แต่ถ้าให้หุ่นยนต์ทำความสะอาดครัวทั้งหมด เช่น เช็ดเคาน์เตอร์ เก็บของชำ ล้างจาน และจัดระเบียบอุปกรณ์ ข้อจำกัดของมันก็จะปรากฏให้เห็นอย่างชัดเจน
ปัญหาไม่ได้อยู่ที่ทักษะเหล่านั้นเอง ปัญหาอยู่ที่วิธีการประสานงานของทักษะเหล่านั้น งานที่ซับซ้อนต้องการความตระหนักรู้ที่ต่อเนื่อง หุ่นยนต์ต้องจำให้ได้ว่าเปิดตู้ไหนไปแล้วบ้าง วางฝาหม้อไว้ที่ไหน หรือล้างจานไปแล้วหรือยัง นอกจากนี้ยังต้องติดตามวัตถุที่เคลื่อนที่ออกนอกสายตา และรักษาแผนที่ในใจของสภาพแวดล้อมขณะที่กำลังดำเนินการใหม่ๆ
กระบวนการคิดของมนุษย์ทำเช่นนี้ได้อย่างง่ายดาย แต่เครื่องจักรนั้นทำไม่ได้จนกระทั่งเมื่อไม่นานมานี้ การเก็บรักษาข้อมูลทุกอย่างที่หุ่นยนต์เห็นเป็นเวลาหลายนาทีหรือหลายชั่วโมงนั้นเป็นไปไม่ได้ในทางคอมพิวเตอร์ แต่การทิ้งข้อมูลเหล่านั้นจะนำไปสู่พฤติกรรมที่สับสนวุ่นวาย เช่น การทำผิดซ้ำๆ การลืมขั้นตอน หรือการกระทำที่ขัดแย้งกับการตัดสินใจก่อนหน้านี้ ในงานวิจัยด้านหุ่นยนต์ ความท้าทายนี้บางครั้งถูกเรียกว่า "ความสับสนเชิงสาเหตุ" ซึ่งระบบตีความเหตุการณ์ในอดีตผิดพลาดและเสริมสร้างพฤติกรรมที่ผิดๆ
ผลลัพธ์ที่ได้คือ หุ่นยนต์ที่ดูน่าประทับใจในวิดีโอสาธิตสั้นๆ แต่กลับประสบปัญหาในการทำงานจริง
ระบบหน่วยความจำสำหรับสติปัญญาทางกายภาพ
สถาปัตยกรรม MEM แก้ปัญหาดังกล่าวโดยการนำโครงสร้างหน่วยความจำแบบหลายชั้นมาใช้ แทนที่จะจัดเก็บทุกอย่างอย่างเท่าเทียมกัน ระบบจะแยกหน่วยความจำออกเป็นสองรูปแบบที่เสริมกัน:
หน่วยความจำภาพระยะสั้นจะบันทึกสิ่งที่สังเกตเห็นล่าสุดโดยใช้สถาปัตยกรรมการเข้ารหัสวิดีโอที่มีประสิทธิภาพ ซึ่งช่วยให้หุ่นยนต์เข้าใจการเคลื่อนไหว ติดตามวัตถุในเฟรมต่างๆ และจดจำเหตุการณ์ที่เกิดขึ้นเมื่อไม่กี่วินาทีที่ผ่านมา ซึ่งเป็นสิ่งสำคัญสำหรับการกระทำที่แม่นยำ เช่น การพลิกแซนด์วิชชีสย่างหรือการล้างจาน
ในขณะเดียวกัน หน่วยความจำเชิงแนวคิดระยะยาวจะจัดเก็บความคืบหน้าของงานในรูปแบบภาษาธรรมชาติ แทนที่จะจดจำข้อมูลภาพดิบๆdefiทุกคืน หุ่นยนต์จะเขียน "บันทึก" ข้อความสั้นๆ อธิบายสิ่งที่เกิดขึ้น เช่น "ฉันวางหม้อลงในอ่างล้างจาน" หรือ "ฉันหยิบน้ำนมออกจากตู้เย็น"
บทสรุปเหล่านี้กลายเป็นส่วนหนึ่งของกระบวนการให้เหตุผลของหุ่นยนต์ กล่าวคือ เครื่องจักรสร้างเรื่องราวของตัวเองเกี่ยวกับงานที่ได้รับมอบหมาย จากนั้นกลไกการให้เหตุผลของระบบจะตัดสินใจสองสิ่งพร้อมกัน คือ การกระทำใดที่ควรทำต่อไป และข้อมูลใดที่ควรจดจำ การผสมผสานนี้ทำให้หุ่นยนต์สามารถติดตามงานที่ใช้เวลานานถึงสิบห้านาที ซึ่งนานกว่าการสาธิตหุ่นยนต์ส่วนใหญ่ในอดีตมาก
หนึ่งในความสามารถที่น่าสนใจที่สุดที่ MEM มอบให้คือการปรับตัวตามบริบท หุ่นยนต์ทำผิดพลาดได้ นั่นเป็นสิ่งที่หลีกเลี่ยงไม่ได้ แต่ระบบหุ่นยนต์ส่วนใหญ่จะทำผิดพลาดซ้ำแล้วซ้ำเล่าเพราะมันไม่มีหน่วยความจำเกี่ยวกับความล้มเหลว
ความแตกต่างนั้นเห็นได้ชัดเจนจากการทดลองง่ายๆ ในการทดสอบหนึ่ง หุ่นยนต์พยายามหยิบตะเกียบแบนๆ หากไม่มีหน่วยความจำ หุ่นยนต์จะพยายามจับแบบเดิมซ้ำๆ ซึ่งไม่สำเร็จ แต่เมื่อเปิดใช้งานหน่วยความจำ หุ่นยนต์จะจำความพยายามที่ล้มเหลวและลองใช้วิธีอื่น ซึ่งในที่สุดก็สำเร็จ
อีกตัวอย่างหนึ่งคือการเปิดตู้เย็น จากข้อมูลภาพเพียงอย่างเดียว หุ่นยนต์ไม่สามารถระบุได้ทันทีว่าประตูเปิดไปทางไหน ระบบที่ไม่มีหน่วยความจำจะทำซ้ำการกระทำเดิมไปเรื่อยๆ ในขณะที่หุ่นยนต์ที่มีหน่วยความจำจะลองเปิดไปในทิศทางหนึ่ง จดจำความล้มเหลว แล้วจึงลองเปิดไปในทิศทางตรงกันข้าม
การปรับเปลี่ยนเล็กน้อยเหล่านี้แสดงถึงสิ่งสำคัญอย่างยิ่ง นั่นคือ ความสามารถในการเรียนรู้ภายในตัวงานเอง แทนที่จะพึ่งพาข้อมูลการฝึกฝนทั้งหมด หุ่นยนต์จะปรับตัวได้ทันที
นักวิจัยได้ประเมินระบบที่ใช้หน่วยความจำในการทำงานกับงานที่ซับซ้อนขึ้นเรื่อยๆ โดยเริ่มจากความท้าทายที่ค่อนข้างง่าย นั่นคือ การทำแซนด์วิชชีสย่าง ซึ่งต้องใช้หน่วยความจำระยะสั้นในการจัดการจังหวะเวลาขณะทำขั้นตอนทางกายภาพที่ละเอียดอ่อน เช่น การพลิกขนมปังและการจัดวางแซนด์วิชลงจาน
ขั้นตอนต่อไปคือภารกิจด้านโลจิสติกส์: การหยิบส่วนผสมสำหรับสูตรอาหาร หุ่นยนต์ต้องจำให้ได้ว่าได้หยิบสิ่งของใดไปแล้วบ้าง อยู่ที่ไหน และลิ้นชักและตู้ต่างๆ ปิดสนิทหรือไม่ สุดท้ายคือสถานการณ์ที่ท้าทายที่สุด: การทำความสะอาดห้องครัวทั้งหมด
นั่นหมายถึงการจัดเก็บสิ่งของให้เข้าที่ การล้างจาน การเช็ดเคาน์เตอร์ และการตรวจสอบว่าส่วนใดของห้องได้รับการทำความสะอาดแล้วบ้าง
โมเดลที่เสริมด้วยหน่วยความจำมีประสิทธิภาพเหนือกว่าเวอร์ชันที่ไม่มีหน่วยความจำแบบมีโครงสร้างอย่างเห็นได้ชัด โดยแสดงให้เห็นถึงความน่าเชื่อถือและอัตราการทำงานให้สำเร็จที่สูงกว่า
ความแตกต่างนี้แสดงให้เห็นถึงการเปลี่ยนแปลงที่สำคัญในด้านหุ่นยนต์ แทนที่จะมุ่งเน้นการปรับให้เหมาะสมกับการกระทำแต่ละอย่าง นักวิจัยกำลังสร้างระบบที่สามารถทำงานได้อย่างต่อเนื่อง
เหตุใดหน่วยความจำจึงเป็นพรมแดนใหม่แห่งหุ่นยนต์
นัยสำคัญในวงกว้างของ MEM คือวิทยาการหุ่นยนต์กำลังเข้าสู่ยุคใหม่ เป็นเวลาหลายทศวรรษที่สาขานี้มุ่งเน้นไปที่การรับรู้และการควบคุม: การช่วยให้เครื่องจักรเห็นโลกและจัดการกับวัตถุ แต่เมื่อไม่นานมานี้ โมเดลหลายโมดอลขนาดใหญ่ได้พัฒนาความสามารถของหุ่นยนต์ในการตีความคำสั่งและดำเนินการพฤติกรรมมอเตอร์ที่ซับซ้อนได้อย่างมาก
แต่เมื่อความสามารถเหล่านั้นพัฒนาขึ้น ปัญหาคอขวดก็ย้ายไปแล้ว ความท้าทายต่อไปคือความต่อเนื่องทางความคิด — การทำให้หุ่นยนต์สามารถทำงานได้เป็นเวลานานโดยไม่สูญเสียเป้าหมาย ระบบหน่วยความจำอย่าง MEM เป็นโครงสร้างพื้นฐานสำหรับความต่อเนื่องนั้น แทนที่จะตอบสนองแบบทันทีทันใด หุ่นยนต์สามารถรักษาเรื่องราวภายในเกี่ยวกับการกระทำ การตัดสินใจ และสภาพแวดล้อมของตนเองได้ เรื่องราวนี้เองที่ทำให้พฤติกรรมที่ซับซ้อนเกิดขึ้นได้
หากแนวทางนี้พัฒนาต่อไป ผลกระทบจะขยายออกไปไกลกว่าการทำความสะอาดห้องครัว หุ่นยนต์ในอนาคตอาจต้องปฏิบัติตามคำสั่งที่ค่อยๆ เปิดเผยออกมาเป็นเวลาหลายชั่วโมงหรือหลายวัน ลองนึกภาพการบอกผู้ช่วยในบ้านว่า:
“ฉันกลับบ้านตอน 6 โมงเย็น ช่วยเตรียมอาหารเย็นให้พร้อมและทำความสะอาดบ้านในวันพุธด้วยนะคะ”
การดำเนินการตามคำขอเช่นนี้จำเป็นต้องวิเคราะห์คำสั่งที่ยาวเหยียด วางแผนงานย่อย จดจำความคืบหน้า และปรับตัวเมื่อเกิดปัญหาขึ้น
การเก็บรักษาประวัติวิดีโอแบบดิบๆ ของทุกการกระทำไว้เป็นเวลานานขนาดนั้นเป็นไปไม่ได้ ดังนั้นหุ่นยนต์จึงน่าจะพึ่งพาระบบหน่วยความจำแบบลำดับชั้นแทน ซึ่งประสบการณ์ต่างๆ จะถูกบีบอัดให้กลายเป็นภาพแทนเชิงนามธรรมที่เพิ่มมากขึ้นเรื่อยๆ
MEM เป็นก้าวแรกๆ สู่สถาปัตยกรรมนั้น มันชี้ให้เห็นว่ากุญแจสำคัญสู่หุ่นยนต์ที่มีประสิทธิภาพมากขึ้นอาจไม่ใช่เครื่องยนต์ที่ทรงพลังกว่าหรือเซ็นเซอร์ที่คมชัดกว่า แต่เป็นหน่วยความจำที่ดีกว่า และความสามารถในการใช้เหตุผลเกี่ยวกับข้อมูลเหล่านั้น หากหุ่นยนต์สามารถจดจำสิ่งที่พวกมันกำลังทำได้ในที่สุด พวกมันก็จะสามารถทำงานให้สำเร็จลุล่วงได้เช่นกัน
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา
บทความอื่น ๆ
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา



