Google เอาชนะ Meta ด้วยการเปิดตัว Imagen Video ซึ่งเป็นโปรแกรมสร้างข้อความเป็นวิดีโอแบบใหม่
ในบทสรุป
Imagen Video ของ Google พยายามช่วยให้โปรแกรมสร้างวิดีโอกลายเป็นแอปนักฆ่า
Google ใช้เวลาไม่นานในการตอบสนองต่อ Make-a-Video จาก Meta โดยใช้ข้อความแจ้ง ภาพวิดีโอ อาจผลิตวิดีโอที่ยอดเยี่ยม ผลลัพธ์ที่ได้คือความก้าวหน้าอย่างมากเหนือความทันสมัย แม้จะมีข้อบกพร่องหลายประการ
เมื่อเปรียบเทียบกับตัวสร้าง AI แบบ Text-to-Video ของ Facebook สร้างวิดีโอ, ผลลัพธ์ดีขึ้นอย่างเห็นได้ชัด. อย่างไรก็ตาม กลยุทธ์นี้ยังต้องการการกำกับดูแลที่มากขึ้น ตรงกันข้ามกับ Imagen Video ที่พนักงานระดับไมโครทำงานอย่างหนักเพื่อใส่คำอธิบายประกอบภาพยนตร์ด้วยคำอธิบายเป็นลายลักษณ์อักษร Make-a-Scene ใช้วิดีโอที่ไม่มีป้ายกำกับในการฝึกอบรม
การเข้าสู่ลักษณะเฉพาะของสถาปัตยกรรมนั้นไม่มีจุดหมาย คุณควรอ่านเกี่ยวกับเรื่องนี้ในบทความ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. เราสามารถยืนยันได้เพียงว่า 16 เฟรมแรกถูกสร้างขึ้นจากการฝังข้อความของตัวเข้ารหัส T5 ที่ความละเอียด 48×24 ด้วย 3 เฟรมต่อวินาที จากนั้นจึงขยายขนาดโดยโมเดลการแพร่กระจายจำนวนหนึ่งเป็นภาพยนตร์สุดท้ายจำนวน 128 เฟรม ที่ 1280×768 และ 24 เฟรมต่อวินาที
Imagen Video คืออะไร?
Imagen Video เป็นวิธีการสร้างวิดีโอแบบมีเงื่อนไขข้อความโดยอิงตามชุดโมเดลการแพร่กระจายวิดีโอ Imagen Video ผลิตภาพยนตร์คุณภาพสูงจาก ข้อความแจ้ง ด้วยการรวมโมเดลการผลิตวิดีโอพื้นฐานเข้ากับซีรีส์โมเดลความละเอียดสูงพิเศษของวิดีโอเชิงพื้นที่และเชิงเวลาแบบอินเทอร์เลซ พิจารณาตัวเลือกการออกแบบที่ทีมทำขึ้นพร้อมกับขยายขนาดระบบให้อยู่ในระดับสูงdefiโมเดลข้อความเป็นวิดีโอ nition รวมถึงการตัดสินใจเลือกโมเดลการแพร่กระจายแบบ v-parameterize และการเลือกโมเดลความละเอียดสูงพิเศษเชิงพื้นที่และเชิงขมับแบบ convolutional ที่ความละเอียดเฉพาะ นอกจากนี้ยังตรวจสอบและใช้ผลลัพธ์จากงานก่อนหน้าเกี่ยวกับการผลิตภาพที่เน้นการแพร่กระจายกับบริบทของ การสร้างวิดีโอ. จากนั้น โมเดลวิดีโอจะถูกนำไปกลั่นแบบโปรเกรสซีฟโดยไม่มีคำแนะนำแบบไม่มีตัวแยกประเภท เพื่อการสุ่มตัวอย่างที่รวดเร็วและมีคุณภาพสูง
ทีมวิจัยของ Google อ้างว่าระบบยอมรับคำอธิบายที่เป็นข้อความและ สร้างภาพยนตร์ 16 เฟรม ที่ 24 เฟรมต่อวินาที ด้วยความละเอียด 48 x 128 พิกเซล ระบบจะปรับขนาดและ "คาดการณ์" เฟรมพิเศษ สร้างวิดีโอขั้นสุดท้ายที่มี 24 เฟรมที่ 720 เฟรมต่อวินาทีและความละเอียด 1280p (768×60) มีการใช้คู่ข้อความรูปภาพ 14 ล้านคู่ และคู่ข้อความวิดีโอ XNUMX ล้านคู่ที่ใช้ในการฝึก Imagen Video
ตัวอย่างวิดีโออิมเมจ
แม้ว่าเพียงเพราะการใช้ AI เพื่อสร้างวิดีโอนั้นเร็วกว่าและถูกกว่า เทคโนโลยีดังกล่าวจะถูกนำไปใช้ทุกที่อย่างไม่ต้องสงสัย
สนใจอ่านเพิ่มเติม? ต่อไปนี้เป็นหัวข้อเพิ่มเติมบางส่วนที่ควรตรวจสอบ:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต