Google สอน AI Model Flamingo ให้เขียนคำอธิบายสำหรับวิดีโอ YouTube
ในบทสรุป
Flamingo แก้ปัญหาวิดีโอสั้นที่ยากต่อการค้นหาด้วยการสร้างคำอธิบายโดยอัตโนมัติ
Google DeepMind ห้องปฏิบัติการวิจัย AI มี พัฒนา รูปแบบภาษาภาพที่เรียกว่า Flamingo สามารถเขียนคำอธิบายสำหรับวิดีโอสั้น ๆ บน YouTube ปัญหาที่ Flamingo กล่าวถึงคือวิดีโอขนาดสั้นมักจะค้นหาได้ยากผ่านการค้นหาเนื่องจากขาดข้อมูลที่จำเป็นในคำอธิบาย โมเดล Flamingo แก้ปัญหานี้ด้วยการสร้างข้อความอัตโนมัติสำหรับวิดีโอคลิปสั้นหลายล้านคลิปบนไซต์โฮสต์วิดีโอ ซึ่งใช้ "เบื้องหลัง" เพื่อให้สามารถค้นหาได้ง่าย แม้ว่าผู้เขียนวิดีโอจะไม่เห็นข้อมูลเมตา แต่ก็ช่วยให้ผู้ชมค้นหาและไปยังส่วนต่างๆ ของวิดีโอสั้นได้ ปัจจุบัน Flamingo ทำงานกับคลิปใหม่และประมวลผลวิดีโอเก่าที่อัปโหลดไปยัง YouTube มาเป็นเวลานาน
ในอดีต Google ได้เปิดตัวอัลกอริทึมที่ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลภายในวิดีโอโดยใช้แถบค้นหา เมื่อเร็ว ๆ นี้ TwelveLabs ระดมทุน 12 ล้านดอลลาร์จากนักลงทุนเพื่อการพัฒนาที่คล้ายคลึงกัน เครื่องมือเหล่านี้สร้างโอกาสใหม่ให้กับวิดีโอ ผู้สร้างเนื้อหา เพื่อเพิ่มการเข้าถึงและการมองเห็น ด้วยการใช้ประโยชน์จาก AI เพื่อปรับปรุงและลดความซับซ้อนของกระบวนการค้นหาและค้นพบเนื้อหาแบบสั้น DeepMind และสตาร์ทอัพที่คล้ายกันกำลังปฏิวัติวิดีโอ สตรีมมิ่งบริการ. พวกเขามีส่วนในการพัฒนาเทคโนโลยีการค้นหาที่ชาญฉลาดและมีประสิทธิภาพมากขึ้น ทำให้ผู้ชมค้นหาเนื้อหาที่พวกเขาสนใจอย่างแท้จริงได้ง่ายขึ้น
ปัญญาประดิษฐ์มีบทบาทสำคัญในการยกระดับเทคโนโลยีการค้นหา ด้วยการใช้ประโยชน์จาก AI โมเดล Flamingo สามารถสแกนและจัดลำดับเนื้อหาและสร้างข้อความที่สรุปเนื้อหาเพื่อช่วยให้ผู้ใช้นำทางได้ โมเดล Flamingo ใช้โครงข่ายประสาทเทียมระดับลึกเพื่อสร้างคำอธิบายที่เป็นข้อความของวิดีโอคลิปตามเนื้อหาภาพและเสียงของวิดีโอ สามารถจับภาพองค์ประกอบการได้ยินและการมองเห็นของเนื้อหาแบบสั้นและแปลงเป็นบทสรุปที่ง่ายสำหรับผู้ใช้ในการค้นหาและเข้าถึง
การใช้ AI สามารถช่วยระบุข้อมูลที่สำคัญสำหรับผู้ใช้ ซึ่งอาจพลาดจากความพยายามด้วยตนเองของผู้สร้างในขณะที่เพิ่มคำอธิบาย ความพยายามที่ใช้เวลานานในการบันทึกทุกรายละเอียดด้วยตนเองนั้นไม่สามารถทำได้จริงเสมอไป โดยเฉพาะอย่างยิ่งเมื่อมีการอัปโหลดเนื้อหาวิดีโอแบบสั้นอย่างต่อเนื่องบนแพลตฟอร์มเช่น YouTube ซึ่งอาจทำให้ผู้ใช้เกิดความสับสนและความยุ่งยากเมื่อค้นหาเนื้อหาแบบสั้นเฉพาะเจาะจง อย่างไรก็ตาม ด้วยการใช้โมเดลภาษาภาพ เช่น Flamingo ข้อมูลเมตาจะถูกสร้างขึ้นโดยอัตโนมัติเพื่อให้สรุปเพื่อให้เข้าถึงได้ง่าย ซึ่งช่วยประหยัดเวลาและทำให้กระบวนการค้นหามีประสิทธิภาพและแม่นยำยิ่งขึ้น
Flamingo ตั้งค่าโมเดลภาษาภาพใหม่ล่าสุดสำหรับงานปลายเปิด
รายละเอียดที่สำคัญที่สุดคือการเปิดตัว Flamingo ซึ่งเป็นโมเดลภาษาภาพเดียว (วีแอลเอ็ม) ที่กำหนดสถานะใหม่ของศิลปะในการเรียนรู้แบบไม่กี่ช็อตเกี่ยวกับงานต่อเนื่องหลายรูปแบบแบบปลายเปิดที่หลากหลาย Flamingo เป็นรูปแบบภาษาภาพเดียว (VLM) ที่defiการเรียนรู้แบบไม่กี่ช็อตผ่านกิจกรรมต่อเนื่องหลายรูปแบบแบบปลายเปิดที่หลากหลาย มันได้รับ รวดเร็ว ประกอบด้วยภาพ วิดีโอ และข้อความแทรกเป็นอินพุตและเอาต์พุตของภาษาที่เกี่ยวข้อง อินเทอร์เฟซภาพและข้อความของ Flamingo เช่นเดียวกับโมเดลภาษาขนาดใหญ่ (LLM)สามารถนำแบบจำลองไปสู่การบรรลุเป้าหมายต่อเนื่องหลายรูปแบบ แบบจำลองสามารถถามคำถามด้วยภาพหรือวิดีโอที่สดใหม่ จากนั้นสร้างคำตอบ โดยพิจารณาตัวอย่างอินพุตภาพสองสามคู่และข้อความตอบกลับที่คาดไว้ซึ่งประกอบขึ้นจากข้อความแจ้งของ Flamingo
Flamingo เป็นโมเดลภาษาภาพที่หลอมรวมโมเดลภาษาขนาดใหญ่เข้ากับการแสดงภาพที่มีประสิทธิภาพ และได้รับการฝึกอบรมเกี่ยวกับส่วนผสมของข้อมูลต่อเนื่องหลายรูปแบบขนาดใหญ่ที่มาจากเว็บเท่านั้น โดยไม่ใช้ข้อมูลที่มีคำอธิบายประกอบเพื่อจุดประสงค์ในการเรียนรู้ของเครื่อง มันเอาชนะวิธีการเรียนรู้แบบไม่กี่ช็อตก่อนหน้านี้ทั้งหมดเมื่อให้ตัวอย่างเพียงสี่ตัวอย่างต่องาน และมีประสิทธิภาพดีกว่าวิธีการที่ปรับแต่งอย่างละเอียดและปรับให้เหมาะสมสำหรับแต่ละงานโดยอิสระ และใช้ข้อมูลเฉพาะงานหลายลำดับความสำคัญมากขึ้น นอกจากนี้ยังทดสอบความสามารถเชิงคุณภาพของโมเดลที่เหนือกว่าเกณฑ์มาตรฐานในปัจจุบัน เช่น คำบรรยายภาพที่เกี่ยวข้องกับเพศและสีผิว และการรันคำบรรยายที่สร้างขึ้นผ่าน Perspective API ของ Google ซึ่งประเมินความเป็นพิษของข้อความ Flamingo ทำให้สามารถปรับให้เข้ากับตัวอย่างเหล่านี้และงานอื่น ๆ ได้ทันทีโดยไม่ต้องแก้ไขโมเดลและแสดงให้เห็นถึงความสามารถในการโต้ตอบต่อเนื่องหลายรูปแบบที่นอกกรอบ
Flamingo เป็นตระกูลโมเดลที่ใช้งานทั่วไปซึ่งสามารถนำไปใช้กับงานการทำความเข้าใจภาพและวิดีโอด้วยตัวอย่างเฉพาะงานเพียงเล็กน้อย เป็นตระกูลโมเดลสำหรับวัตถุประสงค์ทั่วไปที่มีประสิทธิภาพและประสิทธิผล ซึ่งสามารถนำไปใช้กับงานการทำความเข้าใจภาพและวิดีโอด้วยตัวอย่างเฉพาะงานเพียงเล็กน้อย ความสามารถของ Flamingo ปูทางไปสู่การโต้ตอบที่หลากหลายด้วยโมเดลภาษาภาพที่เรียนรู้ ซึ่งช่วยให้สามารถตีความได้ดีขึ้นและแอปพลิเคชันใหม่ที่น่าตื่นเต้น เช่น ผู้ช่วยด้านภาพ
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต