OpenFlamingo: กรอบรูปภาพเป็นข้อความโอเพ่นซอร์สใหม่จาก Meta AI และ LAION
ในบทสรุป
OpenFlamingo เป็นเวอร์ชันโอเพ่นซอร์สของโมเดล Flamingo ของ DeepMind ซึ่งสร้างขึ้นจาก LLaMA แบบจำลองภาษาขนาดใหญ่.
นักพัฒนาหวังว่าจะสร้างระบบหลายรูปแบบที่สามารถรับมือกับความท้าทายทางภาษาที่มองเห็นและเท่าเทียมกัน GPT-4จุดแข็งและความสามารถในการปรับตัวในการจัดการการป้อนภาพและข้อความ
เวอร์ชันโอเพ่นซอร์สของโมเดล Flamingo ของ DeepMind เปิดฟลามิงโกเพิ่งได้รับการปล่อยตัว OpenFlamingo เป็นกรอบการทำงานพื้นฐานที่ช่วยให้สามารถฝึกอบรมและประเมินโมเดลหลายรูปแบบ (LMM) ขนาดใหญ่ได้ OpenFlamingo ถูกสร้างขึ้นบน LLaMA โมเดลภาษาขนาดใหญ่ที่พัฒนาโดย Meta AI
อ่านเพิ่มเติม: วิธีใช้ Midjourney ฟรีตลอดไป: 5 ขั้นตอนง่ายๆ |
ผลงานของนักพัฒนาในรุ่นแรกนี้มีดังนี้:
- ชุดข้อมูลหลายรูปแบบขนาดใหญ่ที่รวมลำดับข้อความและภาพ
- เกณฑ์มาตรฐานสำหรับการประเมินผลการเรียนรู้ในบริบทสำหรับกิจกรรมต่างๆ รวมถึงวิสัยทัศน์และภาษา
- รุ่นเบื้องต้นของเรา LLaMA- โมเดล OpenFlamingo-9B ที่ใช้พื้นฐาน
นักพัฒนาหวังว่าจะสร้างระบบหลายรูปแบบที่สามารถจัดการกับความท้าทายด้านการมองเห็นที่หลากหลายผ่าน OpenFlamingo เป้าหมายสูงสุดคือการเท่าเทียมกัน GPT-4จุดแข็งและความสามารถในการปรับตัวในการจัดการการป้อนภาพและข้อความ นักพัฒนากำลังพัฒนาโมเดล Flamingo ของ DeepMind เวอร์ชันโอเพ่นซอร์ส ซึ่งเป็น LMM ที่สามารถประมวลผลและให้เหตุผลเกี่ยวกับรูปภาพ วิดีโอ และข้อความ เพื่อให้บรรลุเป้าหมายนี้ นักพัฒนาทุ่มเทให้กับการพัฒนาโมเดลโอเพ่นซอร์สทั้งหมด เพราะพวกเขาคิดว่าความโปร่งใสเป็นสิ่งสำคัญสำหรับการส่งเสริมความร่วมมือ เร่งการพัฒนา และทำให้เป็นประชาธิปไตยในการเข้าถึง LMM ที่ล้ำสมัย
พวกเขากำลังให้จุดตรวจสอบเริ่มต้นของโมเดล OpenFlamingo-9B ของเรา แม้ว่าโมเดลจะยังไม่ได้รับการปรับให้เหมาะสมทั้งหมด แต่ก็แสดงให้เห็นถึงคำมั่นสัญญาของโครงการ นักพัฒนาสามารถฝึกอบรม LMM ที่ดีขึ้นโดยให้ความร่วมมือและรับคำติชมจากชุมชน พวกเขาเชิญสาธารณะให้ป้อนข้อมูลและเพิ่มในที่เก็บเพื่อมีส่วนร่วมในกระบวนการพัฒนา
การดำเนินการคล้ายกับของ Flamingo อย่างใกล้ชิด โมเดลฟลามิงโกต้องได้รับการฝึกฝนในชุดข้อมูลเว็บขนาดใหญ่ที่มีข้อความแทรกและ กราฟิก เพื่อให้พวกเขามีทักษะการเรียนรู้เพียงไม่กี่ช็อตในบริบท สถาปัตยกรรมเดียวกันกับที่แนะนำในการศึกษา Flamingo ดั้งเดิม (Perceiver resamplers, cross-attention layer) ถูกนำมาใช้ใน OpenFlamingo แต่เนื่องจากข้อมูลการฝึกอบรมของ Flamingo ไม่สามารถเข้าถึงได้สำหรับบุคคลทั่วไป นักพัฒนาจึงใช้ชุดข้อมูลโอเพ่นซอร์สเพื่อฝึกอบรมโมเดล จุดตรวจสอบ OpenFlamingo-9B ที่เผยแพร่ใหม่ได้รับการฝึกฝนเป็นพิเศษกับตัวอย่าง 10 ล้านตัวอย่างจาก LAION-2B และตัวอย่าง 5 ล้านจากชุดข้อมูล Multimodal C4 ใหม่
นักพัฒนายังรวมจุดตรวจสอบจาก LMM OpenFlamingo-9B ที่ยังไม่เสร็จของเราซึ่งมีพื้นฐานมาจาก LLaMA 7B และ CLIP ViT/L-14 ซึ่งเป็นส่วนหนึ่งของการเปิดตัว แม้ว่าแนวคิดนี้ยังคงอยู่ในระหว่างการพัฒนา แต่ชุมชนก็อาจได้รับประโยชน์อย่างมากจากแนวคิดนี้แล้ว
ในการเริ่มต้น ให้ดูที่ GitHub แหล่งที่มาและ สาธิต.
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต