รายงานข่าว เทคโนโลยี
มิถุนายน 12, 2023

Microsoft ได้เปิดตัว Otter แบบจำลองภาษาหลายรูปแบบสำหรับการทำความเข้าใจภาพตามชุดข้อมูลข้อความภาพและคำสั่งขนาดใหญ่ MIMIC-IT

ในบทสรุป

Otter เป็นโมเดลภาษาภาพ (VLM) ที่สร้างขึ้นบนแพลตฟอร์ม OpenFlamingo ซึ่งออกแบบมาเพื่อปฏิวัติความเข้าใจด้านภาพและโต้ตอบกับเนื้อหาภาพ

นาก เป็นรูปแบบภาษาภาพที่ทันสมัย ​​(VLM) ที่สร้างขึ้นบน เปิดฟลามิงโก แพลตฟอร์มและได้รับการตั้งค่าเพื่อปรับปรุงวิธีที่เราโต้ตอบกับเนื้อหาภาพ เป็นส่วนหนึ่งของโครงการ Otter ที่มีความทะเยอทะยาน Microsoft ได้แนะนำ ชุดข้อมูลข้อความเชิงภาพขนาดใหญ่ที่เรียกว่า MIMIC-ไอที. ชุดข้อมูลนี้ประกอบด้วยคำสั่งหลายรูปแบบที่เชื่อมโยงพร้อมคำตอบจำนวน 2.8 ล้านคู่ รวมถึงคำแนะนำที่ไม่ซ้ำกัน 2.2 ล้านคู่ที่ได้มาจากรูปภาพและวิดีโอ ชุดข้อมูลได้รับการดูแลอย่างพิถีพิถันเพื่อจำลองบทสนทนาที่เป็นธรรมชาติ ครอบคลุมสถานการณ์ต่างๆ เช่น คำอธิบายภาพและวิดีโอ การเปรียบเทียบภาพ การตอบคำถาม การทำความเข้าใจฉาก และอื่นๆ คู่คำสั่ง-การตอบกลับคุณภาพสูงเหล่านี้ถูกสร้างขึ้นโดยใช้อันทรงพลัง ChatGPT-0301 API ซึ่งแสดงถึงการลงทุนประมาณ 20 ดอลลาร์

Microsoft ได้เปิดตัว Otter แบบจำลองภาษาหลายรูปแบบสำหรับการทำความเข้าใจภาพตามชุดข้อมูลข้อความภาพและคำสั่งขนาดใหญ่ MIMIC-IT

ชุดข้อมูล MIMIC-IT มีบทบาทสำคัญในการฝึกอบรมโมเดล Otter ซึ่งได้รับการออกแบบมาให้เป็นเลิศในการทำความเข้าใจฉากภาพ การให้เหตุผล และข้อสรุปเชิงตรรกะ คู่การตอบสนองคำสั่งในชุดข้อมูลจะมาพร้อมกับข้อมูลหลายโมดอลในบริบท สร้างบริบทการสนทนาที่ช่วยให้โมเดลเข้าใจความแตกต่างของการรับรู้ การใช้เหตุผล และการวางแผน ในการขยายขนาดกระบวนการคำอธิบายประกอบ Microsoft ใช้ไปป์ไลน์คำอธิบายประกอบอัตโนมัติชื่อ Syphus ซึ่งรวมเอาความเชี่ยวชาญของมนุษย์เข้ากับความสามารถของ GPT เพื่อให้ชุดข้อมูลมีคุณภาพและมีความหลากหลาย

Microsoft ได้เปิดตัว Otter แบบจำลองภาษาหลายรูปแบบสำหรับการทำความเข้าใจภาพตามชุดข้อมูลข้อความภาพและคำสั่งขนาดใหญ่ MIMIC-IT

การใช้ชุดข้อมูล MIMIC-IT ทำให้ Microsoft ฝึกฝนโมเดล Otter ซึ่งเป็น VLM ขนาดใหญ่ที่ใช้แพลตฟอร์ม OpenFlamingo Otter ได้แสดงให้เห็นถึงความสามารถที่โดดเด่นในด้านการรับรู้หลายรูปแบบ การให้เหตุผล และการเรียนรู้ในบริบท ผ่านการประเมินอย่างครอบคลุมเกี่ยวกับเกณฑ์มาตรฐานภาษาการมองเห็น การประเมินโดยมนุษย์ได้เปิดเผยความสามารถในการปรับให้สอดคล้องกับความตั้งใจของผู้ใช้อย่างมีประสิทธิภาพ ทำให้เป็นเครื่องมืออันล้ำค่าสำหรับการตีความและดำเนินการงานที่ซับซ้อนตามคำสั่งภาษาธรรมชาติ

Otter v0.2 ได้ขยายขีดความสามารถเพื่อรองรับอินพุตวิดีโอ ทำให้สามารถ กรอบกระบวนการ และรูปภาพหลายรูปเป็นตัวอย่างในบริบท

การเปิดตัวชุดข้อมูล MIMIC-IT พร้อมด้วยไปป์ไลน์การรวบรวมการตอบสนองคำสั่ง เกณฑ์มาตรฐาน และโมเดล Otter แสดงถึงความสำเร็จครั้งสำคัญในด้านการประมวลผลภาษาต่อเนื่องหลายรูปแบบ ด้วยการทำให้ทรัพยากรเหล่านี้พร้อมใช้งานสำหรับนักวิจัยและนักพัฒนา Microsoft มีเป้าหมายเพื่อส่งเสริมนวัตกรรมและการทำงานร่วมกัน ทำให้สามารถรวม Otter และ OpenFlamingo เข้ากับขั้นตอนการฝึกอบรมและการอนุมานที่ปรับแต่งได้โดยใช้ยอดนิยม กอดหน้า กรอบหม้อแปลง

ชุดข้อมูล MIMIC-IT ครอบคลุมสถานการณ์ในชีวิตจริงที่หลากหลาย ช่วยให้ Vision-Language Models (VLM) เข้าใจฉากทั่วไป เหตุผลเกี่ยวกับบริบท และแยกความแตกต่างระหว่างการสังเกตได้อย่างชาญฉลาด สิ่งนี้เปิดโอกาสต่างๆ เช่น การพัฒนาโมเดลผู้ช่วยการมองเห็นที่เน้นอัตตาตัวตน ซึ่งสามารถตอบคำถามเช่น "เฮ้ คุณคิดว่าฉันลืมกุญแจไว้บนโต๊ะหรือไม่"

MIMIC-IT ไม่จำกัดเฉพาะภาษาอังกฤษเท่านั้น นอกจากนี้ยังรองรับหลายภาษา ได้แก่ จีน เกาหลี ญี่ปุ่น เยอรมัน ฝรั่งเศส สเปน และอาหรับ การสนับสนุนหลายภาษานี้ช่วยให้ผู้ชมทั่วโลกจำนวนมากขึ้นได้รับประโยชน์จากความสะดวกและความก้าวหน้าที่เกิดจาก AI

เพื่อให้แน่ใจว่ามีการสร้างคู่การตอบสนองคำสั่งที่มีคุณภาพสูง ไมโครซอฟท์ ได้เปิดตัว Syphus ซึ่งเป็นไปป์ไลน์อัตโนมัติที่รวมข้อความระบบ คำอธิบายประกอบแบบภาพ และตัวอย่างในบริบทไว้เพื่อแจ้งให้ ChatGPT. สิ่งนี้ทำให้มั่นใจได้ถึงความน่าเชื่อถือและความแม่นยำของคู่คำสั่ง-การตอบกลับที่สร้างขึ้นในหลายภาษา

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

จาก Ripple สู่ Big Green DAO: โครงการ Cryptocurrency มีส่วนสนับสนุนการกุศลอย่างไร

เรามาสำรวจความคิดริเริ่มที่ใช้ประโยชน์จากศักยภาพของสกุลเงินดิจิทัลเพื่อการกุศลกันดีกว่า

รู้เพิ่มเติม

AlphaFold 3, Med-Gemini และอื่นๆ: วิธีที่ AI พลิกโฉมการดูแลสุขภาพในปี 2024

AI แสดงให้เห็นในรูปแบบต่างๆ ในการดูแลสุขภาพ ตั้งแต่การเปิดเผยความสัมพันธ์ทางพันธุกรรมใหม่ๆ ไปจนถึงการเสริมศักยภาพให้กับระบบการผ่าตัดด้วยหุ่นยนต์ ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
จาก Ripple สู่ Big Green DAO: โครงการ Cryptocurrency มีส่วนสนับสนุนการกุศลอย่างไร
การวิเคราะห์ คริปโต Wiki บัญชีธุรกิจ การศึกษา ไลฟ์สไตล์ ตลาด ซอฟต์แวร์ เทคโนโลยี
จาก Ripple สู่ Big Green DAO: โครงการ Cryptocurrency มีส่วนสนับสนุนการกุศลอย่างไร
May 13, 2024
AlphaFold 3, Med-Gemini และอื่นๆ: วิธีที่ AI พลิกโฉมการดูแลสุขภาพในปี 2024
AI Wiki การวิเคราะห์ ย่อยอาหาร ความคิดเห็น บัญชีธุรกิจ ตลาด รายงานข่าว ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
AlphaFold 3, Med-Gemini และอื่นๆ: วิธีที่ AI พลิกโฉมการดูแลสุขภาพในปี 2024
May 13, 2024
Nim Network เตรียมเปิดตัวเฟรมเวิร์กโทเค็นการเป็นเจ้าของ AI และดำเนินการขายผลตอบแทนพร้อมกำหนดวันสแนปชอตในเดือนพฤษภาคม
ตลาด รายงานข่าว เทคโนโลยี
Nim Network เตรียมเปิดตัวเฟรมเวิร์กโทเค็นการเป็นเจ้าของ AI และดำเนินการขายผลตอบแทนพร้อมกำหนดวันสแนปชอตในเดือนพฤษภาคม
May 13, 2024
Binance ร่วมมือกับอาร์เจนตินาเพื่อต่อสู้กับอาชญากรรมทางไซเบอร์
ความคิดเห็น บัญชีธุรกิจ ตลาด รายงานข่าว ซอฟต์แวร์ เทคโนโลยี
Binance ร่วมมือกับอาร์เจนตินาเพื่อต่อสู้กับอาชญากรรมทางไซเบอร์
May 13, 2024
CRYPTOMERIA LABS PTE. บจก.