January 24, 2023

GLIGEN: โมเดลการสร้างข้อความเป็นรูปภาพแบบแช่แข็งใหม่พร้อมกล่องขอบ

เผยแพร่: 24 มกราคม 2023 เวลา 5:00 น. อัปเดต: 21 มีนาคม 2024 เวลา 11:40 น.

แก้ไขและตรวจสอบข้อเท็จจริง: 24 มกราคม 2023 เวลา 5:00 น

ในบทสรุป

GLIGEN หรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายความสามารถของโมเดลการแพร่กระจายที่ผ่านการฝึกอบรมล่วงหน้าในปัจจุบัน

ด้วยอินพุตเงื่อนไขคำบรรยายและขอบเขตของกล่อง โมเดล GLIGEN จะสร้าง text2img ที่ต่อสายดินแบบโลกเปิด

GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว

GLIGEN ยังอาจวางจุดสำคัญของมนุษย์ในขณะที่สร้างข้อความเป็นรูปภาพ

โมเดลการแพร่กระจายข้อความเป็นรูปภาพขนาดใหญ่นั้นพัฒนาไปไกลแล้ว อย่างไรก็ตาม แนวทางปฏิบัติในปัจจุบันคือการพึ่งพาการป้อนข้อความเพียงอย่างเดียว ซึ่งอาจจำกัดความสามารถในการควบคุม กลิเกนหรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายขีดความสามารถของโมเดลการแพร่กระจายแบบข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้าในปัจจุบัน โดยอนุญาตให้ปรับสภาพบนอินพุตที่มีสายดิน

GLIGEN: โมเดลการสร้างข้อความเป็นรูปภาพแบบแช่แข็งใหม่พร้อมกล่องขอบ

เพื่อรักษาความรู้แนวคิดที่กว้างขวางของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า นักพัฒนาจะตรึงน้ำหนักทั้งหมดและปั๊มข้อมูลการลงกราวด์ลงในชั้นใหม่ที่สามารถฝึกได้ผ่านกระบวนการควบคุม ด้วยอินพุตเงื่อนไขคำอธิบายภาพและขอบเขตของกล่อง แบบจำลอง GLIGEN สร้างข้อความเป็นภาพที่ลงกราวด์ในโลกเปิด และความสามารถการต่อกราวด์ทำให้เป็นภาพรวมได้อย่างมีประสิทธิภาพเพื่อการกำหนดค่าและแนวคิดเชิงพื้นที่แบบใหม่

วันที่ออก สาธิต ที่นี่

GLIGEN อ้างอิงจากแบบจำลองการแพร่กระจายที่ได้รับการฝึกฝนล่วงหน้า ซึ่งน้ำหนักเดิมของแบบจำลองนั้นถูกแช่แข็งเพื่อคงไว้ซึ่งความรู้ที่ได้รับการฝึกฝนไว้ล่วงหน้าจำนวนมหาศาล

GLIGEN ขึ้นอยู่กับการฝึกอบรมล่วงหน้าที่มีอยู่ แบบจำลองการแพร่กระจายน้ำหนักดั้งเดิมถูกแช่แข็งเพื่อรักษาความรู้ที่ได้รับการฝึกฝนไว้ล่วงหน้าจำนวนมหาศาล
ที่แต่ละบล็อกของหม้อแปลง จะมีการสร้างชั้น Gated Self-Attention ที่ฝึกได้ใหม่เพื่อดูดซับอินพุตของสายดินเพิ่มเติม
โทเค็นกราวด์แต่ละอันมีข้อมูลสองประเภท: ข้อมูลเชิงความหมายเกี่ยวกับสิ่งที่กราวด์ (ข้อความหรือรูปภาพที่เข้ารหัส) และข้อมูลตำแหน่งเชิงพื้นที่ (กล่องขอบเขตหรือจุดสำคัญที่เข้ารหัส)

บทความที่เกี่ยวข้อง: VToonify: โมเดล AI แบบเรียลไทม์สำหรับสร้างวิดีโอแนวศิลปะ

เลเยอร์มอดูเลตที่เพิ่มเข้ามาใหม่นั้นได้รับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องบนข้อมูลการลงกราวด์ขนาดใหญ่ (กล่องข้อความรูปภาพ) ซึ่งคุ้มค่ากว่าวิธีอื่นๆ ในการใช้โมเดลการแพร่กระจายที่ผ่านการฝึกอบรมมาแล้ว เช่น การปรับแต่งโมเดลแบบเต็ม คล้ายกับเลโก้ เลเยอร์ที่ผ่านการฝึกอบรมต่างๆ สามารถเสียบเข้าและออกได้เพื่อให้มีความสามารถใหม่ๆ ที่หลากหลาย — เลเยอร์มอดูเลตที่เพิ่มเข้ามาใหม่ได้รับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องเกี่ยวกับข้อมูลกราวด์ขนาดใหญ่ (รูปภาพ-กล่องข้อความ) วิธีนี้คุ้มต้นทุนมากกว่าวิธีอื่นในการใช้อุปกรณ์ที่ผ่านการฝึกอบรมมาแล้ว แบบจำลองการแพร่กระจายเช่นการปรับแต่งแบบเต็มรูปแบบ เช่นเดียวกับเลโก้ สามารถเสียบปลั๊กชั้นต่างๆ ที่ได้รับการฝึกเข้าและออกเพื่อให้มีความสามารถใหม่ๆ มากมาย

GLIGEN รองรับการสุ่มตัวอย่างตามกำหนดเวลาในกระบวนการแพร่สำหรับการอนุมาน โดยที่ตัวแบบสามารถเลือกแบบไดนามิกเพื่อใช้โทเค็นการต่อสายดิน (โดยการเพิ่มเลเยอร์ใหม่) หรือแบบจำลองการแพร่กระจายดั้งเดิมที่มีดีก่อนหน้า (โดยการเปิดเลเยอร์ใหม่) และทำให้คุณภาพการสร้างสมดุล และความสามารถในการต่อสายดิน

GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว

บทความที่เกี่ยวข้อง: Microsoft ได้เปิดตัวโมเดลการแพร่กระจายที่สามารถสร้างอวาตาร์ 3 มิติจากภาพถ่ายบุคคลเดียว

นอกจากนี้ยังสามารถฝึก GLIGEN ได้โดยใช้รูปภาพอ้างอิง แถวบนสุดแสดงให้เห็นว่าภาพถ่ายอ้างอิง นอกเหนือจากคำอธิบายที่เป็นลายลักษณ์อักษรแล้ว สามารถให้ลักษณะที่ละเอียดยิ่งขึ้น เช่น สไตล์และรูปทรงของรถ แถวที่สองแสดงให้เห็นว่าภาพอ้างอิงสามารถใช้เป็นรูปแบบภาพได้ ซึ่งในกรณีนี้ เราจะพบว่าการต่อสายดินไว้ที่มุมหรือขอบของภาพก็เพียงพอแล้ว

GLIGEN เช่นเดียวกับแบบจำลองการแพร่กระจายอื่นๆ สามารถทำการลงสีภาพแบบลงกราวด์ ซึ่งสามารถสร้างวัตถุที่ใกล้เคียงกับกล่องขอบที่ให้มา

GLIGEN ยังอาจวางจุดสำคัญของมนุษย์ในขณะที่สร้างข้อความเป็นรูปภาพ — นอกจากนี้ GLIGEN ยังอาจกำหนดจุดสำคัญของมนุษย์ในขณะที่ การสร้างข้อความเป็นรูปภาพ.

อ่านเพิ่มเติมเกี่ยวกับ AI:

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต

บทความอื่น ๆ

ดาเมียร์ ยาลอฟ