Microsoft ได้เปิดตัว Otter แบบจำลองภาษาหลายรูปแบบสำหรับการทำความเข้าใจภาพตามชุดข้อมูลข้อความภาพและคำสั่งขนาดใหญ่ MIMIC-IT
ในบทสรุป
Otter เป็นโมเดลภาษาภาพ (VLM) ที่สร้างขึ้นบนแพลตฟอร์ม OpenFlamingo ซึ่งออกแบบมาเพื่อปฏิวัติความเข้าใจด้านภาพและโต้ตอบกับเนื้อหาภาพ
นาก เป็นรูปแบบภาษาภาพที่ทันสมัย (VLM) ที่สร้างขึ้นบน เปิดฟลามิงโก แพลตฟอร์มและได้รับการตั้งค่าเพื่อปรับปรุงวิธีที่เราโต้ตอบกับเนื้อหาภาพ เป็นส่วนหนึ่งของโครงการ Otter ที่มีความทะเยอทะยาน Microsoft ได้แนะนำ ชุดข้อมูลข้อความเชิงภาพขนาดใหญ่ที่เรียกว่า MIMIC-ไอที. ชุดข้อมูลนี้ประกอบด้วยคำสั่งหลายรูปแบบที่เชื่อมโยงพร้อมคำตอบจำนวน 2.8 ล้านคู่ รวมถึงคำแนะนำที่ไม่ซ้ำกัน 2.2 ล้านคู่ที่ได้มาจากรูปภาพและวิดีโอ ชุดข้อมูลได้รับการดูแลอย่างพิถีพิถันเพื่อจำลองบทสนทนาที่เป็นธรรมชาติ ครอบคลุมสถานการณ์ต่างๆ เช่น คำอธิบายภาพและวิดีโอ การเปรียบเทียบภาพ การตอบคำถาม การทำความเข้าใจฉาก และอื่นๆ คู่คำสั่ง-การตอบกลับคุณภาพสูงเหล่านี้ถูกสร้างขึ้นโดยใช้อันทรงพลัง ChatGPT-0301 API ซึ่งแสดงถึงการลงทุนประมาณ 20 ดอลลาร์
ชุดข้อมูล MIMIC-IT มีบทบาทสำคัญในการฝึกอบรมโมเดล Otter ซึ่งได้รับการออกแบบมาให้เป็นเลิศในการทำความเข้าใจฉากภาพ การให้เหตุผล และข้อสรุปเชิงตรรกะ คู่การตอบสนองคำสั่งในชุดข้อมูลจะมาพร้อมกับข้อมูลหลายโมดอลในบริบท สร้างบริบทการสนทนาที่ช่วยให้โมเดลเข้าใจความแตกต่างของการรับรู้ การใช้เหตุผล และการวางแผน ในการขยายขนาดกระบวนการคำอธิบายประกอบ Microsoft ใช้ไปป์ไลน์คำอธิบายประกอบอัตโนมัติชื่อ Syphus ซึ่งรวมเอาความเชี่ยวชาญของมนุษย์เข้ากับความสามารถของ GPT เพื่อให้ชุดข้อมูลมีคุณภาพและมีความหลากหลาย
การใช้ชุดข้อมูล MIMIC-IT ทำให้ Microsoft ฝึกฝนโมเดล Otter ซึ่งเป็น VLM ขนาดใหญ่ที่ใช้แพลตฟอร์ม OpenFlamingo Otter ได้แสดงให้เห็นถึงความสามารถที่โดดเด่นในด้านการรับรู้หลายรูปแบบ การให้เหตุผล และการเรียนรู้ในบริบท ผ่านการประเมินอย่างครอบคลุมเกี่ยวกับเกณฑ์มาตรฐานภาษาการมองเห็น การประเมินโดยมนุษย์ได้เปิดเผยความสามารถในการปรับให้สอดคล้องกับความตั้งใจของผู้ใช้อย่างมีประสิทธิภาพ ทำให้เป็นเครื่องมืออันล้ำค่าสำหรับการตีความและดำเนินการงานที่ซับซ้อนตามคำสั่งภาษาธรรมชาติ
Otter v0.2 ได้ขยายขีดความสามารถเพื่อรองรับอินพุตวิดีโอ ทำให้สามารถ กรอบกระบวนการ และรูปภาพหลายรูปเป็นตัวอย่างในบริบท
การเปิดตัวชุดข้อมูล MIMIC-IT พร้อมด้วยไปป์ไลน์การรวบรวมการตอบสนองคำสั่ง เกณฑ์มาตรฐาน และโมเดล Otter แสดงถึงความสำเร็จครั้งสำคัญในด้านการประมวลผลภาษาต่อเนื่องหลายรูปแบบ ด้วยการทำให้ทรัพยากรเหล่านี้พร้อมใช้งานสำหรับนักวิจัยและนักพัฒนา Microsoft มีเป้าหมายเพื่อส่งเสริมนวัตกรรมและการทำงานร่วมกัน ทำให้สามารถรวม Otter และ OpenFlamingo เข้ากับขั้นตอนการฝึกอบรมและการอนุมานที่ปรับแต่งได้โดยใช้ยอดนิยม กอดหน้า กรอบหม้อแปลง
ชุดข้อมูล MIMIC-IT ครอบคลุมสถานการณ์ในชีวิตจริงที่หลากหลาย ช่วยให้ Vision-Language Models (VLM) เข้าใจฉากทั่วไป เหตุผลเกี่ยวกับบริบท และแยกความแตกต่างระหว่างการสังเกตได้อย่างชาญฉลาด สิ่งนี้เปิดโอกาสต่างๆ เช่น การพัฒนาโมเดลผู้ช่วยการมองเห็นที่เน้นอัตตาตัวตน ซึ่งสามารถตอบคำถามเช่น "เฮ้ คุณคิดว่าฉันลืมกุญแจไว้บนโต๊ะหรือไม่"
MIMIC-IT ไม่จำกัดเฉพาะภาษาอังกฤษเท่านั้น นอกจากนี้ยังรองรับหลายภาษา ได้แก่ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ การสนับสนุนหลายภาษานี้ช่วยให้ผู้ชมทั่วโลกจำนวนมากขึ้นได้รับประโยชน์จากความสะดวกและความก้าวหน้าที่เกิดจาก AI
เพื่อให้แน่ใจว่ามีการสร้างคู่การตอบสนองคำสั่งที่มีคุณภาพสูง ไมโครซอฟท์ ได้เปิดตัว Syphus ซึ่งเป็นไปป์ไลน์อัตโนมัติที่รวมข้อความระบบ คำอธิบายประกอบแบบภาพ และตัวอย่างในบริบทไว้เพื่อแจ้งให้ ChatGPT. สิ่งนี้ทำให้มั่นใจได้ถึงความน่าเชื่อถือและความแม่นยำของคู่คำสั่ง-การตอบกลับที่สร้างขึ้นในหลายภาษา
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต