รายงานข่าว
ตุลาคม 06, 2022

Google เอาชนะ Meta ด้วยการเปิดตัว Imagen Video ซึ่งเป็นโปรแกรมสร้างข้อความเป็นวิดีโอแบบใหม่ 

ในบทสรุป

Imagen Video ของ Google พยายามช่วยให้โปรแกรมสร้างวิดีโอกลายเป็นแอปนักฆ่า

Google ใช้เวลาไม่นานในการตอบสนองต่อ Make-a-Video จาก Meta โดยใช้ข้อความแจ้ง ภาพวิดีโอ อาจผลิตวิดีโอที่ยอดเยี่ยม ผลลัพธ์ที่ได้คือความก้าวหน้าอย่างมากเหนือความทันสมัย ​​แม้จะมีข้อบกพร่องหลายประการ

เมื่อเปรียบเทียบกับตัวสร้าง AI แบบ Text-to-Video ของ Facebook สร้างวิดีโอ, ผลลัพธ์ดีขึ้นอย่างเห็นได้ชัด. อย่างไรก็ตาม กลยุทธ์นี้ยังต้องการการกำกับดูแลที่มากขึ้น ตรงกันข้ามกับ Imagen Video ที่พนักงานระดับไมโครทำงานอย่างหนักเพื่อใส่คำอธิบายประกอบภาพยนตร์ด้วยคำอธิบายเป็นลายลักษณ์อักษร Make-a-Scene ใช้วิดีโอที่ไม่มีป้ายกำกับในการฝึกอบรม

การเข้าสู่ลักษณะเฉพาะของสถาปัตยกรรมนั้นไม่มีจุดหมาย คุณควรอ่านเกี่ยวกับเรื่องนี้ในบทความ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. เราสามารถยืนยันได้เพียงว่า 16 เฟรมแรกถูกสร้างขึ้นจากการฝังข้อความของตัวเข้ารหัส T5 ที่ความละเอียด 48×24 ด้วย 3 เฟรมต่อวินาที จากนั้นจึงขยายขนาดโดยโมเดลการแพร่กระจายจำนวนหนึ่งเป็นภาพยนตร์สุดท้ายจำนวน 128 เฟรม ที่ 1280×768 และ 24 เฟรมต่อวินาที

Imagen Video คืออะไร?

Imagen Video เป็นวิธีการสร้างวิดีโอแบบมีเงื่อนไขข้อความโดยอิงตามชุดโมเดลการแพร่กระจายวิดีโอ Imagen Video ผลิตภาพยนตร์คุณภาพสูงจาก ข้อความแจ้ง ด้วยการรวมโมเดลการผลิตวิดีโอพื้นฐานเข้ากับซีรีส์โมเดลความละเอียดสูงพิเศษของวิดีโอเชิงพื้นที่และเชิงเวลาแบบอินเทอร์เลซ พิจารณาตัวเลือกการออกแบบที่ทีมทำขึ้นพร้อมกับขยายขนาดระบบให้อยู่ในระดับสูงdefiโมเดลข้อความเป็นวิดีโอ nition รวมถึงการตัดสินใจเลือกโมเดลการแพร่กระจายแบบ v-parameterize และการเลือกโมเดลความละเอียดสูงพิเศษเชิงพื้นที่และเชิงขมับแบบ convolutional ที่ความละเอียดเฉพาะ นอกจากนี้ยังตรวจสอบและใช้ผลลัพธ์จากงานก่อนหน้าเกี่ยวกับการผลิตภาพที่เน้นการแพร่กระจายกับบริบทของ การสร้างวิดีโอ. จากนั้น โมเดลวิดีโอจะถูกนำไปกลั่นแบบโปรเกรสซีฟโดยไม่มีคำแนะนำแบบไม่มีตัวแยกประเภท เพื่อการสุ่มตัวอย่างที่รวดเร็วและมีคุณภาพสูง

ทีมวิจัยของ Google อ้างว่าระบบยอมรับคำอธิบายที่เป็นข้อความและ สร้างภาพยนตร์ 16 เฟรม ที่ 24 เฟรมต่อวินาที ด้วยความละเอียด 48 x 128 พิกเซล ระบบจะปรับขนาดและ "คาดการณ์" เฟรมพิเศษ สร้างวิดีโอขั้นสุดท้ายที่มี 24 เฟรมที่ 720 เฟรมต่อวินาทีและความละเอียด 1280p (768×60) มีการใช้คู่ข้อความรูปภาพ 14 ล้านคู่ และคู่ข้อความวิดีโอ XNUMX ล้านคู่ที่ใช้ในการฝึก Imagen Video

ตัวอย่างวิดีโออิมเมจ

แม้ว่าเพียงเพราะการใช้ AI เพื่อสร้างวิดีโอนั้นเร็วกว่าและถูกกว่า เทคโนโลยีดังกล่าวจะถูกนำไปใช้ทุกที่อย่างไม่ต้องสงสัย

สนใจอ่านเพิ่มเติม? ต่อไปนี้เป็นหัวข้อเพิ่มเติมบางส่วนที่ควรตรวจสอบ:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

DOGE Frenzy: การวิเคราะห์มูลค่าที่เพิ่มขึ้นล่าสุดของ Dogecoin (DOGE)

อุตสาหกรรมสกุลเงินดิจิทัลกำลังขยายตัวอย่างรวดเร็ว และเหรียญมีมกำลังเตรียมพร้อมสำหรับการแกว่งตัวขึ้นอย่างมีนัยสำคัญ โดชคอยน์ (DOGE), ...

รู้เพิ่มเติม

วิวัฒนาการของเนื้อหาที่สร้างโดย AI ใน Metaverse

การเกิดขึ้นของเนื้อหา AI เจนเนอเรชั่นถือเป็นหนึ่งในพัฒนาการที่น่าสนใจที่สุดภายในสภาพแวดล้อมเสมือนจริง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
ข้อเสนอที่ดีที่สุดประจำสัปดาห์นี้ การลงทุนที่สำคัญใน AI, ไอที Web3และสกุลเงินดิจิทัล (22-26.04)
ย่อยอาหาร บัญชีธุรกิจ ตลาด เทคโนโลยี
ข้อเสนอที่ดีที่สุดประจำสัปดาห์นี้ การลงทุนที่สำคัญใน AI, ไอที Web3และสกุลเงินดิจิทัล (22-26.04)
April 26, 2024
Vitalik Buterin แสดงความคิดเห็นเกี่ยวกับการรวมศูนย์ของ PoW โปรดทราบว่านี่เป็นขั้นตอนชั่วคราวจนกว่าจะถึง PoS
รายงานข่าว เทคโนโลยี
Vitalik Buterin แสดงความคิดเห็นเกี่ยวกับการรวมศูนย์ของ PoW โปรดทราบว่านี่เป็นขั้นตอนชั่วคราวจนกว่าจะถึง PoS
April 26, 2024
Offchain Labs เผยการค้นพบช่องโหว่ที่สำคัญสองรายการในการพิสูจน์การฉ้อโกงของ OP Stack ของ Optimism
รายงานข่าว ซอฟต์แวร์ เทคโนโลยี
Offchain Labs เผยการค้นพบช่องโหว่ที่สำคัญสองรายการในการพิสูจน์การฉ้อโกงของ OP Stack ของ Optimism
April 26, 2024
ตลาดเปิดของ Dymension สำหรับการเชื่อมโยงสภาพคล่องจาก RollApps eIBC เปิดตัวบน Mainnet
รายงานข่าว เทคโนโลยี
ตลาดเปิดของ Dymension สำหรับการเชื่อมโยงสภาพคล่องจาก RollApps eIBC เปิดตัวบน Mainnet 
April 26, 2024
CRYPTOMERIA LABS PTE. บจก.