รายงานข่าว เทคโนโลยี
May 29, 2023

Google สอน AI Model Flamingo ให้เขียนคำอธิบายสำหรับวิดีโอ YouTube

ในบทสรุป

Flamingo แก้ปัญหาวิดีโอสั้นที่ยากต่อการค้นหาด้วยการสร้างคำอธิบายโดยอัตโนมัติ

Google DeepMind ห้องปฏิบัติการวิจัย AI มี พัฒนา รูปแบบภาษาภาพที่เรียกว่า Flamingo สามารถเขียนคำอธิบายสำหรับวิดีโอสั้น ๆ บน YouTube ปัญหาที่ Flamingo กล่าวถึงคือวิดีโอขนาดสั้นมักจะค้นหาได้ยากผ่านการค้นหาเนื่องจากขาดข้อมูลที่จำเป็นในคำอธิบาย โมเดล Flamingo แก้ปัญหานี้ด้วยการสร้างข้อความอัตโนมัติสำหรับวิดีโอคลิปสั้นหลายล้านคลิปบนไซต์โฮสต์วิดีโอ ซึ่งใช้ "เบื้องหลัง" เพื่อให้สามารถค้นหาได้ง่าย แม้ว่าผู้เขียนวิดีโอจะไม่เห็นข้อมูลเมตา แต่ก็ช่วยให้ผู้ชมค้นหาและไปยังส่วนต่างๆ ของวิดีโอสั้นได้ ปัจจุบัน Flamingo ทำงานกับคลิปใหม่และประมวลผลวิดีโอเก่าที่อัปโหลดไปยัง YouTube มาเป็นเวลานาน

Google สอน AI Model Flamingo ให้เขียนคำอธิบายสำหรับวิดีโอ YouTube
deepmind.คอม

ในอดีต Google ได้เปิดตัวอัลกอริทึมที่ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลภายในวิดีโอโดยใช้แถบค้นหา เมื่อเร็ว ๆ นี้ TwelveLabs ระดมทุน 12 ล้านดอลลาร์จากนักลงทุนเพื่อการพัฒนาที่คล้ายคลึงกัน เครื่องมือเหล่านี้สร้างโอกาสใหม่ให้กับวิดีโอ ผู้สร้างเนื้อหา เพื่อเพิ่มการเข้าถึงและการมองเห็น ด้วยการใช้ประโยชน์จาก AI เพื่อปรับปรุงและลดความซับซ้อนของกระบวนการค้นหาและค้นพบเนื้อหาแบบสั้น DeepMind และสตาร์ทอัพที่คล้ายกันกำลังปฏิวัติวิดีโอ สตรีมมิ่งบริการ. พวกเขามีส่วนในการพัฒนาเทคโนโลยีการค้นหาที่ชาญฉลาดและมีประสิทธิภาพมากขึ้น ทำให้ผู้ชมค้นหาเนื้อหาที่พวกเขาสนใจอย่างแท้จริงได้ง่ายขึ้น

ปัญญาประดิษฐ์มีบทบาทสำคัญในการยกระดับเทคโนโลยีการค้นหา ด้วยการใช้ประโยชน์จาก AI โมเดล Flamingo สามารถสแกนและจัดลำดับเนื้อหาและสร้างข้อความที่สรุปเนื้อหาเพื่อช่วยให้ผู้ใช้นำทางได้ โมเดล Flamingo ใช้โครงข่ายประสาทเทียมระดับลึกเพื่อสร้างคำอธิบายที่เป็นข้อความของวิดีโอคลิปตามเนื้อหาภาพและเสียงของวิดีโอ สามารถจับภาพองค์ประกอบการได้ยินและการมองเห็นของเนื้อหาแบบสั้นและแปลงเป็นบทสรุปที่ง่ายสำหรับผู้ใช้ในการค้นหาและเข้าถึง

การใช้ AI สามารถช่วยระบุข้อมูลที่สำคัญสำหรับผู้ใช้ ซึ่งอาจพลาดจากความพยายามด้วยตนเองของผู้สร้างในขณะที่เพิ่มคำอธิบาย ความพยายามที่ใช้เวลานานในการบันทึกทุกรายละเอียดด้วยตนเองนั้นไม่สามารถทำได้จริงเสมอไป โดยเฉพาะอย่างยิ่งเมื่อมีการอัปโหลดเนื้อหาวิดีโอแบบสั้นอย่างต่อเนื่องบนแพลตฟอร์มเช่น YouTube ซึ่งอาจทำให้ผู้ใช้เกิดความสับสนและความยุ่งยากเมื่อค้นหาเนื้อหาแบบสั้นเฉพาะเจาะจง อย่างไรก็ตาม ด้วยการใช้โมเดลภาษาภาพ เช่น Flamingo ข้อมูลเมตาจะถูกสร้างขึ้นโดยอัตโนมัติเพื่อให้สรุปเพื่อให้เข้าถึงได้ง่าย ซึ่งช่วยประหยัดเวลาและทำให้กระบวนการค้นหามีประสิทธิภาพและแม่นยำยิ่งขึ้น

Flamingo ตั้งค่าโมเดลภาษาภาพใหม่ล่าสุดสำหรับงานปลายเปิด

รายละเอียดที่สำคัญที่สุดคือการเปิดตัว Flamingo ซึ่งเป็นโมเดลภาษาภาพเดียว (วีแอลเอ็ม) ที่กำหนดสถานะใหม่ของศิลปะในการเรียนรู้แบบไม่กี่ช็อตเกี่ยวกับงานต่อเนื่องหลายรูปแบบแบบปลายเปิดที่หลากหลาย Flamingo เป็นรูปแบบภาษาภาพเดียว (VLM) ที่defiการเรียนรู้แบบไม่กี่ช็อตผ่านกิจกรรมต่อเนื่องหลายรูปแบบแบบปลายเปิดที่หลากหลาย มันได้รับ รวดเร็ว ประกอบด้วยภาพ วิดีโอ และข้อความแทรกเป็นอินพุตและเอาต์พุตของภาษาที่เกี่ยวข้อง อินเทอร์เฟซภาพและข้อความของ Flamingo เช่นเดียวกับโมเดลภาษาขนาดใหญ่ (LLM)สามารถนำแบบจำลองไปสู่การบรรลุเป้าหมายต่อเนื่องหลายรูปแบบ แบบจำลองสามารถถามคำถามด้วยภาพหรือวิดีโอที่สดใหม่ จากนั้นสร้างคำตอบ โดยพิจารณาตัวอย่างอินพุตภาพสองสามคู่และข้อความตอบกลับที่คาดไว้ซึ่งประกอบขึ้นจากข้อความแจ้งของ Flamingo

Flamingo เป็นโมเดลภาษาภาพที่หลอมรวมโมเดลภาษาขนาดใหญ่เข้ากับการแสดงภาพที่มีประสิทธิภาพ และได้รับการฝึกอบรมเกี่ยวกับส่วนผสมของข้อมูลต่อเนื่องหลายรูปแบบขนาดใหญ่ที่มาจากเว็บเท่านั้น โดยไม่ใช้ข้อมูลที่มีคำอธิบายประกอบเพื่อจุดประสงค์ในการเรียนรู้ของเครื่อง มันเอาชนะวิธีการเรียนรู้แบบไม่กี่ช็อตก่อนหน้านี้ทั้งหมดเมื่อให้ตัวอย่างเพียงสี่ตัวอย่างต่องาน และมีประสิทธิภาพดีกว่าวิธีการที่ปรับแต่งอย่างละเอียดและปรับให้เหมาะสมสำหรับแต่ละงานโดยอิสระ และใช้ข้อมูลเฉพาะงานหลายลำดับความสำคัญมากขึ้น นอกจากนี้ยังทดสอบความสามารถเชิงคุณภาพของโมเดลที่เหนือกว่าเกณฑ์มาตรฐานในปัจจุบัน เช่น คำบรรยายภาพที่เกี่ยวข้องกับเพศและสีผิว และการรันคำบรรยายที่สร้างขึ้นผ่าน Perspective API ของ Google ซึ่งประเมินความเป็นพิษของข้อความ Flamingo ทำให้สามารถปรับให้เข้ากับตัวอย่างเหล่านี้และงานอื่น ๆ ได้ทันทีโดยไม่ต้องแก้ไขโมเดลและแสดงให้เห็นถึงความสามารถในการโต้ตอบต่อเนื่องหลายรูปแบบที่นอกกรอบ

Flamingo เป็นตระกูลโมเดลที่ใช้งานทั่วไปซึ่งสามารถนำไปใช้กับงานการทำความเข้าใจภาพและวิดีโอด้วยตัวอย่างเฉพาะงานเพียงเล็กน้อย เป็นตระกูลโมเดลสำหรับวัตถุประสงค์ทั่วไปที่มีประสิทธิภาพและประสิทธิผล ซึ่งสามารถนำไปใช้กับงานการทำความเข้าใจภาพและวิดีโอด้วยตัวอย่างเฉพาะงานเพียงเล็กน้อย ความสามารถของ Flamingo ปูทางไปสู่การโต้ตอบที่หลากหลายด้วยโมเดลภาษาภาพที่เรียนรู้ ซึ่งช่วยให้สามารถตีความได้ดีขึ้นและแอปพลิเคชันใหม่ที่น่าตื่นเต้น เช่น ผู้ช่วยด้านภาพ

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
May 3, 2024
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
ตลาด รายงานข่าว เทคโนโลยี
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
May 3, 2024
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
ตลาด รายงานข่าว เทคโนโลยี
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
May 3, 2024
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
May 3, 2024
CRYPTOMERIA LABS PTE. บจก.