GLIGEN: โมเดลการสร้างข้อความเป็นรูปภาพแบบแช่แข็งใหม่พร้อมกล่องขอบ
ในบทสรุป
GLIGEN หรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายความสามารถของโมเดลการแพร่กระจายที่ผ่านการฝึกอบรมล่วงหน้าในปัจจุบัน
ด้วยอินพุตเงื่อนไขคำบรรยายและขอบเขตของกล่อง โมเดล GLIGEN จะสร้าง text2img ที่ต่อสายดินแบบโลกเปิด
GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว
GLIGEN ยังอาจวางจุดสำคัญของมนุษย์ในขณะที่สร้างข้อความเป็นรูปภาพ
โมเดลการแพร่กระจายข้อความเป็นรูปภาพขนาดใหญ่นั้นพัฒนาไปไกลแล้ว อย่างไรก็ตาม แนวทางปฏิบัติในปัจจุบันคือการพึ่งพาการป้อนข้อความเพียงอย่างเดียว ซึ่งอาจจำกัดความสามารถในการควบคุม กลิเกนหรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายขีดความสามารถของโมเดลการแพร่กระจายแบบข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้าในปัจจุบัน โดยอนุญาตให้ปรับสภาพบนอินพุตที่มีสายดิน
เพื่อรักษาความรู้แนวคิดที่กว้างขวางของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า นักพัฒนาจะตรึงน้ำหนักทั้งหมดและปั๊มข้อมูลการลงกราวด์ลงในชั้นใหม่ที่สามารถฝึกได้ผ่านกระบวนการควบคุม ด้วยอินพุตเงื่อนไขคำอธิบายภาพและขอบเขตของกล่อง แบบจำลอง GLIGEN สร้างข้อความเป็นภาพที่ลงกราวด์ในโลกเปิด และความสามารถการต่อกราวด์ทำให้เป็นภาพรวมได้อย่างมีประสิทธิภาพเพื่อการกำหนดค่าและแนวคิดเชิงพื้นที่แบบใหม่
วันที่ออก สาธิต ที่นี่
- GLIGEN ขึ้นอยู่กับการฝึกอบรมล่วงหน้าที่มีอยู่ แบบจำลองการแพร่กระจายน้ำหนักดั้งเดิมถูกแช่แข็งเพื่อรักษาความรู้ที่ได้รับการฝึกฝนไว้ล่วงหน้าจำนวนมหาศาล
- ที่แต่ละบล็อกของหม้อแปลง จะมีการสร้างชั้น Gated Self-Attention ที่ฝึกได้ใหม่เพื่อดูดซับอินพุตของสายดินเพิ่มเติม
- โทเค็นกราวด์แต่ละอันมีข้อมูลสองประเภท: ข้อมูลเชิงความหมายเกี่ยวกับสิ่งที่กราวด์ (ข้อความหรือรูปภาพที่เข้ารหัส) และข้อมูลตำแหน่งเชิงพื้นที่ (กล่องขอบเขตหรือจุดสำคัญที่เข้ารหัส)
บทความที่เกี่ยวข้อง: VToonify: โมเดล AI แบบเรียลไทม์สำหรับสร้างวิดีโอแนวศิลปะ |
บทความที่เกี่ยวข้อง: Microsoft ได้เปิดตัวโมเดลการแพร่กระจายที่สามารถสร้างอวาตาร์ 3 มิติจากภาพถ่ายบุคคลเดียว |
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต