Nvidia ประกาศ eDiff-I: AI กำเนิดใหม่สำหรับการสังเคราะห์ข้อความและรูปภาพพร้อมการถ่ายโอนสไตล์ทันที
ในบทสรุป
Nvidia เปิดตัว eDiff-I เพื่อช่วยให้ธุรกิจสร้างภาพที่มีคุณภาพสูงและน่าสนใจ
เทคนิค eDiff-I ให้คุณภาพการสังเคราะห์ที่ดีกว่า DALL-E2 และ Stable diffusion
eDiff-I เป็นเครื่องมือสร้างเนื้อหา AI ใหม่ที่ ให้ ความสามารถในการสังเคราะห์ข้อความเป็นภาพที่ไม่เคยมีมาก่อนสำหรับนักการตลาดและธุรกิจ ซึ่งเพิ่งประกาศโดย Nvidia. ด้วย eDiff-I ธุรกิจสามารถสร้างภาพที่มีคุณภาพสูงและน่าสนใจได้อย่างรวดเร็วและง่ายดาย โดยไม่ต้องใช้อุปกรณ์ราคาแพงหรือความช่วยเหลือจากมืออาชีพ eDiff-I ใช้การประมวลผลภาษาธรรมชาติ (NLP) เพื่อตีความอินพุตของผู้ใช้และสร้างภาพที่สอดคล้องกัน จากนั้น AI จะวิเคราะห์ภาพและเลือกภาพที่เหมาะสมที่สุดตามบริบท ผลลัพธ์ที่ได้คือรูปภาพคุณภาพสูงที่ดูเป็นมืออาชีพ ซึ่งสามารถนำไปใช้เพื่อวัตถุประสงค์ต่างๆ ได้ เช่น เอกสารทางการตลาด โพสต์บนโซเชียลมีเดีย แคมเปญอีเมล และอื่นๆ
eDiff-ฉันคือ AI เจเนอเรชันแห่งอนาคต เครื่องมือสร้างเนื้อหาที่ไม่เคยมีมาก่อน ข้อความเป็นภาพ การสังเคราะห์ การถ่ายโอนรูปแบบที่รวดเร็ว และการระบายสีด้วยคำพูดที่ใช้งานง่าย ในฐานะที่เป็นแบบจำลองการแพร่กระจายสำหรับการสร้างภาพจริงจากข้อความ eDiff-I แนะนำให้ฝึกอบรมกลุ่มเครือข่าย denoising ผู้เชี่ยวชาญ โดยแต่ละเครือข่ายจะเชี่ยวชาญสำหรับช่วงสัญญาณรบกวนเฉพาะ เพื่อตอบสนองต่อการค้นพบเชิงประจักษ์ว่าพฤติกรรมของแบบจำลองการแพร่กระจายแตกต่างกันไปในแต่ละช่วงของการสุ่มตัวอย่าง
การฝังข้อความ T5 การฝังภาพ CLIP และการฝังข้อความ CLIP เป็นพื้นฐานสำหรับแนวคิด eDiff-I วิธีการนี้สามารถสร้างกราฟิกเสมือนจริงเพื่อตอบสนองข้อความค้นหาใดๆ
นำเสนอความสามารถเพิ่มเติมสองอย่างนอกเหนือจากการสังเคราะห์ข้อความเป็นรูปภาพ: (1) การถ่ายโอนสไตล์ ซึ่งช่วยให้เราสามารถควบคุมสไตล์ของตัวอย่างที่สร้างขึ้นโดยใช้รูปภาพสไตล์อ้างอิง และ (2) “ระบายสีด้วยคำ” ซึ่งเป็นเครื่องมือ ที่ช่วยให้ผู้ใช้สร้างภาพโดยการวาดภาพแผนที่การแบ่งส่วนบนผืนผ้าใบ
ไปป์ไลน์ประกอบด้วยแบบจำลองการแพร่กระจายสามแบบ: โมเดลพื้นฐานที่สามารถสร้างตัวอย่างที่มีความละเอียด 64 × 64 และสแต็กความละเอียดสูงพิเศษสองชุดที่สามารถค่อยๆ เพิ่มตัวอย่างรูปภาพเป็นความละเอียด 256 × 256 และ 1024 × 1024 ตามลำดับ โมเดลคำนวณ T5 XXL และการฝังข้อความหลังจากได้รับคำบรรยายเป็นอินพุต การฝังรูปภาพเหล่านี้สามารถใช้เป็นเวกเตอร์ของสไตล์ได้ จากนั้นป้อนสิ่งที่ฝังเหล่านี้ลงในน้ำตกของเรา แบบจำลองการแพร่กระจายซึ่งค่อยๆสร้างภาพที่มีความละเอียด 1024 x 1024
วิธีการ eDiff-I นั้นให้ผลลัพธ์ที่มีคุณภาพการสังเคราะห์ที่ดีกว่าอย่างสม่ำเสมอเมื่อเปรียบเทียบกับอัลกอริทึมการแปลงข้อความเป็นรูปภาพแบบโอเพ่นซอร์ส (Stable diffusion) และ (DALL-E2)
เมื่อใช้การฝังภาพ CLIP วิธี eDiff-I จะอำนวยความสะดวกในการถ่ายโอนสไตล์ eDiff-I ก่อนอื่นให้แยกไฟล์ CLIP การฝังรูปภาพจากรูปภาพสไตล์อ้างอิง ซึ่งสามารถใช้เป็นเวกเตอร์อ้างอิงสไตล์ได้ การอ้างอิงโวหารสามารถดูได้จากแผงด้านซ้ายของภาพด้านล่าง ผลลัพธ์เมื่อเปิดการปรับรูปแบบจะแสดงที่แผงตรงกลาง ผลลัพธ์เมื่อปิดการปรับรูปแบบจะแสดงในแผงทางด้านขวา เมื่อใช้การปรับสภาพสไตล์ โมเดล eDiff-I จะสร้างเอาต์พุตที่ตรงกับสไตล์ของคำบรรยายอินพุตเช่นกัน เมื่อปิดการปรับสไตล์ ภาพที่ได้จะดูเป็นธรรมชาติ
ผู้ใช้เมธอด eDiff-I สามารถเปลี่ยนตำแหน่งของสิ่งต่างๆ ที่แสดงรายการในข้อความแจ้งได้โดยการเลือกวลีและขีดเขียนลงบนภาพ หลังจากนั้นโมเดลจะใช้ พรอมต์และแผนที่เพื่อสร้างภาพ ที่เข้ากันได้กับทั้งคำอธิบายภาพและแผนที่อินพุต
อ่านบทความที่เกี่ยวข้อง:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต