VToonify: โมเดล AI แบบเรียลไทม์สำหรับสร้างวิดีโอแนวศิลปะ
ในบทสรุป
เฟรมเวิร์ก VToonify ที่ปฏิวัติวงการได้รับการพัฒนาโดยนักพัฒนาเพื่อให้การถ่ายโอนสไตล์วิดีโอแนวตั้งที่มีการควบคุมและมีความละเอียดสูง
เฟรมเวิร์กใช้เลเยอร์ความละเอียดสูงและกลางของ StyleGAN เพื่อสร้างภาพบุคคลที่มีศิลปะอันน่าทึ่ง
อนุญาตให้ขยายตาม StyleGAN ที่มีอยู่ แบบจำลองภาพ toonification วิดีโอ
นักวิจัยจากมหาวิทยาลัยเทคโนโลยีนันยางได้ แนะนำเฟรมเวิร์ก VToonify ใหม่ เพื่อสร้างการถ่ายโอนสไตล์วิดีโอแนวตั้งความละเอียดสูงที่ควบคุมได้ VToonify ใช้ประโยชน์จากเลเยอร์ความละเอียดระดับกลางและสูงของ StyleGAN เพื่อแสดงภาพบุคคลเชิงศิลปะคุณภาพสูงตามคุณสมบัติเนื้อหาหลายขนาดที่แยกโดยตัวเข้ารหัสเพื่อรักษารายละเอียดของเฟรมได้ดียิ่งขึ้น ผลการทดลองแสดงให้เห็นว่าเฟรมเวิร์กของเราสามารถสร้างวิดีโอที่มีคุณภาพสูงอย่างสม่ำเสมอและการแสดงสีหน้าตามที่ต้องการ โดยไม่จำเป็นต้องมีการจัดตำแหน่งใบหน้าหรือจำกัดขนาดเฟรม
ผลที่ได้คือ สถาปัตยกรรมการบิดเบี้ยวอย่างสมบูรณ์ที่ยอมรับใบหน้าที่ไม่ได้จัดตำแหน่งในวิดีโอขนาดต่างๆ จะสร้างใบหน้าที่สมบูรณ์พร้อมการเคลื่อนไหวแบบออร์แกนิก เฟรมเวิร์ก VToonify สืบทอดคุณสมบัติที่น่าสนใจของโมเดลเหล่านี้เพื่อการควบคุมสไตล์ที่ยืดหยุ่นเกี่ยวกับสีและความเข้ม มันเข้ากันได้กับโมเดลการสร้างภาพเป็นตัวอักษรที่ใช้ StyleGAN ที่มีอยู่เพื่อขยายไปสู่การสร้างภาพเป็นวิดีโอ งานนี้แนะนำสองอินสแตนซ์ของ VToonify สำหรับการถ่ายโอนสไตล์วิดีโอแนวตั้งตามคอลเลกชันและตามตัวอย่าง ตามลำดับ ซึ่งสร้างขึ้นจาก Toonify และ DualStyleGAN
การค้นพบจากการทดลองอย่างกว้างขวางแสดงให้เห็นว่าเฟรมเวิร์ก VToonify ที่เสนอมีประสิทธิภาพเหนือกว่าแนวทางการแข่งขันในการผลิตภาพยนตร์แนวศิลปะพร้อมการควบคุมสไตล์ที่ปรับได้ซึ่งมีคุณภาพดีเยี่ยมและสอดคล้องตามกาลเวลา ตรวจสอบ GitHub .
บทความที่เกี่ยวข้อง: OpenAI กำลังดำเนินการสร้างโมเดล AI สำหรับวิดีโอ |
เพื่อให้การถ่ายโอนสไตล์วิดีโอแนวตั้งความละเอียดสูงที่ควบคุมได้ VToonify รวมข้อดีของเฟรมเวิร์กการแปลรูปภาพและเฟรมเวิร์กที่ใช้ StyleGAN
(A) เพื่อรองรับขนาดอินพุตที่แปรผัน ระบบแปลรูปภาพใช้เครือข่ายแบบหมุนทั้งหมด การให้ความละเอียดสูงและสไตล์ที่ควบคุมได้เป็นเรื่องท้าทาย อย่างไรก็ตาม เมื่อสอนตั้งแต่เริ่มต้น
(B) เฟรมเวิร์กที่ใช้ StyleGAN ซึ่งรองรับเฉพาะขนาดรูปภาพคงที่และการสูญเสียรายละเอียด ใช้โมเดล StyleGAN ที่ฝึกไว้ล่วงหน้าสำหรับการถ่ายโอนสไตล์ที่มีความละเอียดสูงและควบคุมได้
(C) เพื่อสร้างสถาปัตยกรรมเอนโค้ดเดอร์-เจนเนอเรเตอร์แบบ Convolutional ที่สมบูรณ์ซึ่งคล้ายกับเฟรมเวิร์กการแปลรูปภาพ ระบบไฮบริดของเราขยาย StyleGAN โดยลบฟีเจอร์อินพุตขนาดคงที่และเลเยอร์ความละเอียดต่ำ
เพื่อรักษารายละเอียดของเฟรม นักพัฒนาจะฝึกตัวเข้ารหัสเพื่อแยกคุณสมบัติเนื้อหาหลายขนาดออกจากเฟรมอินพุตเป็นเงื่อนไขเนื้อหาเพิ่มเติม VToonify สืบทอดความยืดหยุ่นในการควบคุมสไตล์ของโมเดล StyleGAN โดยใส่ลงในตัวสร้างเพื่อกลั่นทั้งข้อมูลและโมเดล
บทความที่เกี่ยวข้อง: Lambda Labs ประกาศตัวผสมภาพ AI ที่สามารถรวมภาพได้สูงสุดห้าภาพ |
เฟรมเวิร์ก VToonify สืบทอดคุณลักษณะที่น่าดึงดูดสำหรับการควบคุมสไตล์ที่ยืดหยุ่นจากโมเดลการปรับโทนภาพที่ใช้ StyleGAN ในปัจจุบัน และเข้ากันได้กับโมเดลเหล่านี้เพื่อขยายไปสู่ วีดีโอ การปรับโทนเสียง VToonify ของเรานำเสนอสิ่งต่อไปนี้โดยใช้โมเดล DualStyleGAN เป็นรากฐาน StyleGAN:
- การถ่ายทอดรูปแบบจากโครงสร้างตามแบบอย่าง
- การปรับเปลี่ยนระดับรูปแบบ
- การถ่ายโอนรูปแบบสีตามตัวอย่าง
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต