GigaGAN รุ่น Text-to-Image ใหม่สามารถสร้างภาพ 4K ได้ใน 3.66 วินาที
ในบทสรุป
นักวิจัยได้พัฒนาโมเดลข้อความเป็นรูปภาพแบบใหม่ที่เรียกว่า GigaGAN ซึ่งสามารถสร้างภาพ 4K ที่ 3.66 วินาที
มันขึ้นอยู่กับเฟรมเวิร์ก GAN (generative adversarial network) ซึ่งเป็นประเภทของ เครือข่ายประสาท ที่สามารถเรียนรู้การสร้างข้อมูลที่คล้ายกับชุดข้อมูลการฝึกอบรม GigaGAN สามารถสร้างภาพขนาด 512 พิกเซลในเวลา 0.13 วินาที ซึ่งเร็วกว่ารุ่นก่อนหน้าถึง 10 เท่า และมีพื้นที่แฝงที่ไม่พันกัน ต่อเนื่อง และควบคุมได้
นอกจากนี้ยังสามารถใช้ในการฝึกอบรมเครื่องเพิ่มตัวอย่างที่มีประสิทธิภาพและคุณภาพสูงขึ้น
นักวิจัยได้พัฒนาโมเดลข้อความเป็นรูปภาพแบบใหม่ที่เรียกว่า กิกะแกน ที่สามารถสร้าง ภาพ 4K ใน 3.66 วินาที นี่เป็นการปรับปรุงครั้งใหญ่เหนือโมเดลแปลงข้อความเป็นรูปภาพที่มีอยู่ ซึ่งอาจใช้เวลาเป็นนาทีหรือเป็นชั่วโมงในการสร้างภาพเดียว
GigaGAN อิงตามเฟรมเวิร์ก GAN (generative adversarial network) ซึ่งเป็นประเภทของโครงข่ายประสาทเทียมที่สามารถเรียนรู้เพื่อสร้างข้อมูลที่คล้ายกับชุดข้อมูลการฝึกอบรม GAN ถูกนำมาใช้เพื่อสร้างภาพใบหน้า ทิวทัศน์ และแม้แต่ภาพ Street View ที่เหมือนจริง
โมเดลใหม่นี้ได้รับการฝึกอบรมบนชุดข้อมูล 1 พันล้านภาพ ซึ่งมีขนาดใหญ่กว่าชุดข้อมูลที่ใช้ในการฝึกโมเดลแปลงข้อความเป็นรูปภาพก่อนหน้านี้ ผลลัพธ์ที่ได้คือ GigaGAN สามารถสร้างภาพขนาด 512px ที่ 0.13 วินาที ซึ่งเร็วกว่าโมเดลแปลงข้อความเป็นรูปภาพที่ล้ำสมัยกว่า 10 เท่า
นอกจากนี้ GigaGAN ยังมาพร้อมกับพื้นที่แฝงที่ไม่พันกัน ต่อเนื่อง และควบคุมได้ ซึ่งหมายความว่า GigaGAN สามารถสร้างภาพที่มีสไตล์แตกต่างกันได้หลากหลาย และสามารถควบคุมภาพที่สร้างขึ้นได้ในระดับหนึ่ง ตัวอย่างเช่น GigaGAN สามารถสร้างรูปภาพที่รักษาเค้าโครงของการป้อนข้อความ ซึ่งเป็นสิ่งสำคัญสำหรับแอปพลิเคชัน เช่น เมื่อสร้างรูปภาพของเค้าโครงผลิตภัณฑ์จากคำอธิบายข้อความ
นอกจากนี้ยังสามารถใช้ GigaGAN เพื่อฝึกอัพแซมเพลอร์ที่มีประสิทธิภาพและคุณภาพสูงกว่าได้อีกด้วย สามารถใช้กับภาพจริงหรือผลลัพธ์อื่น ๆ โมเดลข้อความเป็นรูปภาพ.
สาขาการเข้ารหัสข้อความ เครือข่ายการแมปสไตล์ เครือข่ายการสังเคราะห์หลายสเกล และความสนใจที่เสถียรและการเลือกเคอร์เนลแบบปรับได้ล้วนเป็นส่วนหนึ่งของเครื่องกำเนิด GigaGAN นักพัฒนาเริ่มต้นสาขาการเข้ารหัสข้อความโดยแยกการฝังข้อความด้วยโมเดล CLIP ที่ผ่านการฝึกอบรมล่วงหน้าและเลเยอร์ความสนใจที่เรียนรู้ T เช่นเดียวกับ สไตล์การฝังจะถูกส่งผ่านไปยังเครือข่ายการแมปลักษณะ M ซึ่งสร้างเวกเตอร์ลักษณะ w ในการสร้างพีระมิดรูปภาพ ขณะนี้เครือข่ายการสังเคราะห์ใช้โค้ดสไตล์เป็นการปรับเปลี่ยนและการฝังข้อความเป็นความสนใจ นอกจากนี้ นักพัฒนาแนะนำการเลือกเคอร์เนลตัวอย่างที่ปรับเปลี่ยนได้เพื่อเลือกเคอร์เนลแบบบิดเบี้ยวที่ปรับเปลี่ยนได้ตามเงื่อนไขข้อความอินพุต
discriminator เช่นเดียวกับตัวสร้างมีสองสาขาสำหรับการประมวลผลภาพและการปรับสภาพข้อความ สาขาข้อความ เช่นเดียวกับตัวสร้าง ประมวลผลข้อความ สาขาภาพจะได้รับปิรามิดภาพและได้รับมอบหมายให้คาดการณ์อิสระสำหรับแต่ละมาตราส่วนภาพ นอกจากนี้ การคาดคะเนจะเกิดขึ้นที่สเกลเลเยอร์การสุ่มตัวอย่างที่ตามมาทั้งหมด นอกจากนี้ยังใช้การสูญเสียเพิ่มเติมเพื่อส่งเสริมการบรรจบกันที่มีประสิทธิภาพ
ตามที่แสดงในกริดการแก้ไข GigaGAN ช่วยให้สามารถแก้ไขระหว่างพรอมต์ได้อย่างราบรื่น มุมทั้งสี่ถูกสร้างขึ้นโดยใช้ latent z เดียวกันแต่แสดงข้อความต่างกัน
เนื่องจาก GigaGAN รักษาพื้นที่แฝงที่ไม่พันกัน นักพัฒนาจึงสามารถผสมผสานรูปแบบหยาบของตัวอย่างหนึ่งกับรูปแบบละเอียดของอีกตัวอย่างหนึ่งได้ GigaGAN ยังสามารถควบคุมสไตล์ได้โดยตรงด้วยข้อความแจ้ง
อ่านบทความที่เกี่ยวข้องเพิ่มเติม:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต