รายงานข่าว
March 20, 2023

GigaGAN รุ่น Text-to-Image ใหม่สามารถสร้างภาพ 4K ได้ใน 3.66 วินาที

ในบทสรุป

นักวิจัยได้พัฒนาโมเดลข้อความเป็นรูปภาพแบบใหม่ที่เรียกว่า GigaGAN ซึ่งสามารถสร้างภาพ 4K ที่ 3.66 วินาที

มันขึ้นอยู่กับเฟรมเวิร์ก GAN (generative adversarial network) ซึ่งเป็นประเภทของ เครือข่ายประสาท ที่สามารถเรียนรู้การสร้างข้อมูลที่คล้ายกับชุดข้อมูลการฝึกอบรม GigaGAN สามารถสร้างภาพขนาด 512 พิกเซลในเวลา 0.13 วินาที ซึ่งเร็วกว่ารุ่นก่อนหน้าถึง 10 เท่า และมีพื้นที่แฝงที่ไม่พันกัน ต่อเนื่อง และควบคุมได้

นอกจากนี้ยังสามารถใช้ในการฝึกอบรมเครื่องเพิ่มตัวอย่างที่มีประสิทธิภาพและคุณภาพสูงขึ้น

นักวิจัยได้พัฒนาโมเดลข้อความเป็นรูปภาพแบบใหม่ที่เรียกว่า กิกะแกน ที่สามารถสร้าง ภาพ 4K ใน 3.66 วินาที นี่เป็นการปรับปรุงครั้งใหญ่เหนือโมเดลแปลงข้อความเป็นรูปภาพที่มีอยู่ ซึ่งอาจใช้เวลาเป็นนาทีหรือเป็นชั่วโมงในการสร้างภาพเดียว

โมเดลข้อความเป็นรูปภาพใหม่ GigaGAN สามารถสร้างภาพ 4K ที่ 3.66 วินาที

GigaGAN อิงตามเฟรมเวิร์ก GAN (generative adversarial network) ซึ่งเป็นประเภทของโครงข่ายประสาทเทียมที่สามารถเรียนรู้เพื่อสร้างข้อมูลที่คล้ายกับชุดข้อมูลการฝึกอบรม GAN ถูกนำมาใช้เพื่อสร้างภาพใบหน้า ทิวทัศน์ และแม้แต่ภาพ Street View ที่เหมือนจริง

อ่านเพิ่มเติม: โมเดล AI แปลงข้อความเป็นรูปภาพ 5+ รุ่นที่ได้รับการคาดหวังมากที่สุดในปี 2023

โมเดลใหม่นี้ได้รับการฝึกอบรมบนชุดข้อมูล 1 พันล้านภาพ ซึ่งมีขนาดใหญ่กว่าชุดข้อมูลที่ใช้ในการฝึกโมเดลแปลงข้อความเป็นรูปภาพก่อนหน้านี้ ผลลัพธ์ที่ได้คือ GigaGAN สามารถสร้างภาพขนาด 512px ที่ 0.13 วินาที ซึ่งเร็วกว่าโมเดลแปลงข้อความเป็นรูปภาพที่ล้ำสมัยกว่า 10 เท่า

นอกจากนี้ GigaGAN ยังมาพร้อมกับพื้นที่แฝงที่ไม่พันกัน ต่อเนื่อง และควบคุมได้ ซึ่งหมายความว่า GigaGAN สามารถสร้างภาพที่มีสไตล์แตกต่างกันได้หลากหลาย และสามารถควบคุมภาพที่สร้างขึ้นได้ในระดับหนึ่ง ตัวอย่างเช่น GigaGAN สามารถสร้างรูปภาพที่รักษาเค้าโครงของการป้อนข้อความ ซึ่งเป็นสิ่งสำคัญสำหรับแอปพลิเคชัน เช่น เมื่อสร้างรูปภาพของเค้าโครงผลิตภัณฑ์จากคำอธิบายข้อความ

นอกจากนี้ยังสามารถใช้ GigaGAN เพื่อฝึกอัพแซมเพลอร์ที่มีประสิทธิภาพและคุณภาพสูงกว่าได้อีกด้วย สามารถใช้กับภาพจริงหรือผลลัพธ์อื่น ๆ โมเดลข้อความเป็นรูปภาพ.

สาขาการเข้ารหัสข้อความ เครือข่ายการแมปสไตล์ เครือข่ายการสังเคราะห์หลายสเกล และความสนใจที่เสถียรและการเลือกเคอร์เนลแบบปรับได้ล้วนเป็นส่วนหนึ่งของเครื่องกำเนิด GigaGAN นักพัฒนาเริ่มต้นสาขาการเข้ารหัสข้อความโดยแยกการฝังข้อความด้วยโมเดล CLIP ที่ผ่านการฝึกอบรมล่วงหน้าและเลเยอร์ความสนใจที่เรียนรู้ T เช่นเดียวกับ สไตล์การฝังจะถูกส่งผ่านไปยังเครือข่ายการแมปลักษณะ M ซึ่งสร้างเวกเตอร์ลักษณะ w ในการสร้างพีระมิดรูปภาพ ขณะนี้เครือข่ายการสังเคราะห์ใช้โค้ดสไตล์เป็นการปรับเปลี่ยนและการฝังข้อความเป็นความสนใจ นอกจากนี้ นักพัฒนาแนะนำการเลือกเคอร์เนลตัวอย่างที่ปรับเปลี่ยนได้เพื่อเลือกเคอร์เนลแบบบิดเบี้ยวที่ปรับเปลี่ยนได้ตามเงื่อนไขข้อความอินพุต

discriminator เช่นเดียวกับตัวสร้างมีสองสาขาสำหรับการประมวลผลภาพและการปรับสภาพข้อความ สาขาข้อความ เช่นเดียวกับตัวสร้าง ประมวลผลข้อความ สาขาภาพจะได้รับปิรามิดภาพและได้รับมอบหมายให้คาดการณ์อิสระสำหรับแต่ละมาตราส่วนภาพ นอกจากนี้ การคาดคะเนจะเกิดขึ้นที่สเกลเลเยอร์การสุ่มตัวอย่างที่ตามมาทั้งหมด นอกจากนี้ยังใช้การสูญเสียเพิ่มเติมเพื่อส่งเสริมการบรรจบกันที่มีประสิทธิภาพ

ตามที่แสดงในกริดการแก้ไข GigaGAN ช่วยให้สามารถแก้ไขระหว่างพรอมต์ได้อย่างราบรื่น มุมทั้งสี่ถูกสร้างขึ้นโดยใช้ latent z เดียวกันแต่แสดงข้อความต่างกัน

เนื่องจาก GigaGAN รักษาพื้นที่แฝงที่ไม่พันกัน นักพัฒนาจึงสามารถผสมผสานรูปแบบหยาบของตัวอย่างหนึ่งกับรูปแบบละเอียดของอีกตัวอย่างหนึ่งได้ GigaGAN ยังสามารถควบคุมสไตล์ได้โดยตรงด้วยข้อความแจ้ง

อ่านบทความที่เกี่ยวข้องเพิ่มเติม:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
May 2, 2024
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
May 2, 2024
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
May 2, 2024
สมาชิกสภานิติบัญญัติแห่งฮ่องกง Wu Jiezhuang ส่งสัญญาณการฟ้องร้องทางแพ่งต่อ JPEX Crypto Exchange
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
สมาชิกสภานิติบัญญัติแห่งฮ่องกง Wu Jiezhuang ส่งสัญญาณการฟ้องร้องทางแพ่งต่อ JPEX Crypto Exchange
May 2, 2024
CRYPTOMERIA LABS PTE. บจก.