รายงานข่าว เทคโนโลยี
January 24, 2023

GLIGEN: โมเดลการสร้างข้อความเป็นรูปภาพแบบแช่แข็งใหม่พร้อมกล่องขอบ

ในบทสรุป

GLIGEN หรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายความสามารถของโมเดลการแพร่กระจายที่ผ่านการฝึกอบรมล่วงหน้าในปัจจุบัน

ด้วยอินพุตเงื่อนไขคำบรรยายและขอบเขตของกล่อง โมเดล GLIGEN จะสร้าง text2img ที่ต่อสายดินแบบโลกเปิด

GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว

GLIGEN ยังอาจวางจุดสำคัญของมนุษย์ในขณะที่สร้างข้อความเป็นรูปภาพ

โมเดลการแพร่กระจายข้อความเป็นรูปภาพขนาดใหญ่นั้นพัฒนาไปไกลแล้ว อย่างไรก็ตาม แนวทางปฏิบัติในปัจจุบันคือการพึ่งพาการป้อนข้อความเพียงอย่างเดียว ซึ่งอาจจำกัดความสามารถในการควบคุม กลิเกนหรือ Grounded-Language-to-Image Generation เป็นเทคนิคใหม่ที่ต่อยอดและขยายขีดความสามารถของโมเดลการแพร่กระจายแบบข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้าในปัจจุบัน โดยอนุญาตให้ปรับสภาพบนอินพุตที่มีสายดิน

GLIGEN: โมเดลการสร้างข้อความเป็นรูปภาพแบบแช่แข็งใหม่พร้อมกล่องขอบ

เพื่อรักษาความรู้แนวคิดที่กว้างขวางของโมเดลที่ผ่านการฝึกอบรมไว้ล่วงหน้า นักพัฒนาจะตรึงน้ำหนักทั้งหมดและปั๊มข้อมูลการลงกราวด์ลงในชั้นใหม่ที่สามารถฝึกได้ผ่านกระบวนการควบคุม ด้วยอินพุตเงื่อนไขคำอธิบายภาพและขอบเขตของกล่อง แบบจำลอง GLIGEN สร้างข้อความเป็นภาพที่ลงกราวด์ในโลกเปิด และความสามารถการต่อกราวด์ทำให้เป็นภาพรวมได้อย่างมีประสิทธิภาพเพื่อการกำหนดค่าและแนวคิดเชิงพื้นที่แบบใหม่

วันที่ออก สาธิต ที่นี่

GLIGEN อ้างอิงจากแบบจำลองการแพร่กระจายที่ได้รับการฝึกฝนล่วงหน้า ซึ่งน้ำหนักเดิมของแบบจำลองนั้นถูกแช่แข็งเพื่อคงไว้ซึ่งความรู้ที่ได้รับการฝึกฝนไว้ล่วงหน้าจำนวนมหาศาล
  • GLIGEN ขึ้นอยู่กับการฝึกอบรมล่วงหน้าที่มีอยู่ แบบจำลองการแพร่กระจายน้ำหนักดั้งเดิมถูกแช่แข็งเพื่อรักษาความรู้ที่ได้รับการฝึกฝนไว้ล่วงหน้าจำนวนมหาศาล
  • ที่แต่ละบล็อกของหม้อแปลง จะมีการสร้างชั้น Gated Self-Attention ที่ฝึกได้ใหม่เพื่อดูดซับอินพุตของสายดินเพิ่มเติม
  • โทเค็นกราวด์แต่ละอันมีข้อมูลสองประเภท: ข้อมูลเชิงความหมายเกี่ยวกับสิ่งที่กราวด์ (ข้อความหรือรูปภาพที่เข้ารหัส) และข้อมูลตำแหน่งเชิงพื้นที่ (กล่องขอบเขตหรือจุดสำคัญที่เข้ารหัส)
บทความที่เกี่ยวข้อง: VToonify: โมเดล AI แบบเรียลไทม์สำหรับสร้างวิดีโอแนวศิลปะ
เลเยอร์มอดูเลตที่เพิ่มเข้ามาใหม่นั้นได้รับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องบนข้อมูลการลงกราวด์ขนาดใหญ่ (กล่องข้อความรูปภาพ) ซึ่งคุ้มค่ากว่าวิธีอื่นๆ ในการใช้โมเดลการแพร่กระจายที่ผ่านการฝึกอบรมมาแล้ว เช่น การปรับแต่งโมเดลแบบเต็ม คล้ายกับเลโก้ เลเยอร์ที่ผ่านการฝึกอบรมต่างๆ สามารถเสียบเข้าและออกได้เพื่อให้มีความสามารถใหม่ๆ ที่หลากหลาย
เลเยอร์มอดูเลตที่เพิ่มเข้ามาใหม่ได้รับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องเกี่ยวกับข้อมูลกราวด์ขนาดใหญ่ (รูปภาพ-กล่องข้อความ) วิธีนี้คุ้มต้นทุนมากกว่าวิธีอื่นในการใช้อุปกรณ์ที่ผ่านการฝึกอบรมมาแล้ว แบบจำลองการแพร่กระจายเช่นการปรับแต่งแบบเต็มรูปแบบ เช่นเดียวกับเลโก้ สามารถเสียบปลั๊กชั้นต่างๆ ที่ได้รับการฝึกเข้าและออกเพื่อให้มีความสามารถใหม่ๆ มากมาย
GLIGEN รองรับการสุ่มตัวอย่างตามกำหนดเวลาในกระบวนการแพร่สำหรับการอนุมาน โดยที่ตัวแบบสามารถเลือกแบบไดนามิกเพื่อใช้โทเค็นการต่อสายดิน (โดยการเพิ่มเลเยอร์ใหม่) หรือแบบจำลองการแพร่กระจายดั้งเดิมที่มีดีก่อนหน้า (โดยการเปิดเลเยอร์ใหม่) และทำให้คุณภาพการสร้างสมดุล และความสามารถในการต่อสายดิน
GLIGEN รองรับการสุ่มตัวอย่างตามกำหนดเวลาในกระบวนการแพร่สำหรับการอนุมาน โดยที่ตัวแบบสามารถเลือกแบบไดนามิกเพื่อใช้โทเค็นการต่อสายดิน (โดยการเพิ่มเลเยอร์ใหม่) หรือแบบจำลองการแพร่กระจายดั้งเดิมที่มีดีก่อนหน้า (โดยการเปิดเลเยอร์ใหม่) และทำให้คุณภาพการสร้างสมดุล และความสามารถในการต่อสายดิน
GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว
GLIGEN สามารถสร้างวัตถุได้หลากหลายในสถานที่และรูปแบบเฉพาะโดยใช้ประโยชน์จากความรู้จากโมเดล text2img ที่ผ่านการฝึกอบรมมาแล้ว
บทความที่เกี่ยวข้อง: Microsoft ได้เปิดตัวโมเดลการแพร่กระจายที่สามารถสร้างอวาตาร์ 3 มิติจากภาพถ่ายบุคคลเดียว
นอกจากนี้ยังสามารถฝึก GLIGEN ได้โดยใช้รูปภาพอ้างอิง
นอกจากนี้ยังสามารถฝึก GLIGEN ได้โดยใช้รูปภาพอ้างอิง แถวบนสุดแสดงให้เห็นว่าภาพถ่ายอ้างอิง นอกเหนือจากคำอธิบายที่เป็นลายลักษณ์อักษรแล้ว สามารถให้ลักษณะที่ละเอียดยิ่งขึ้น เช่น สไตล์และรูปทรงของรถ แถวที่สองแสดงให้เห็นว่าภาพอ้างอิงสามารถใช้เป็นรูปแบบภาพได้ ซึ่งในกรณีนี้ เราจะพบว่าการต่อสายดินไว้ที่มุมหรือขอบของภาพก็เพียงพอแล้ว
GLIGEN เช่นเดียวกับแบบจำลองการแพร่กระจายอื่นๆ สามารถทำการลงสีภาพแบบลงกราวด์ ซึ่งสามารถสร้างวัตถุที่ใกล้เคียงกับกล่องขอบที่ให้มา
GLIGEN เช่นเดียวกับแบบจำลองการแพร่กระจายอื่นๆ สามารถทำการลงสีภาพแบบลงกราวด์ ซึ่งสามารถสร้างวัตถุที่ใกล้เคียงกับกล่องขอบที่ให้มา
GLIGEN ยังอาจวางจุดสำคัญของมนุษย์ในขณะที่สร้างข้อความเป็นรูปภาพ
นอกจากนี้ GLIGEN ยังอาจกำหนดจุดสำคัญของมนุษย์ในขณะที่ การสร้างข้อความเป็นรูปภาพ.

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
May 3, 2024
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
ตลาด รายงานข่าว เทคโนโลยี
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
May 3, 2024
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
ตลาด รายงานข่าว เทคโนโลยี
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
May 3, 2024
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
May 3, 2024
CRYPTOMERIA LABS PTE. บจก.