รายงานข่าว เทคโนโลยี
November 17, 2022

Nvidia ประกาศ eDiff-I: AI กำเนิดใหม่สำหรับการสังเคราะห์ข้อความและรูปภาพพร้อมการถ่ายโอนสไตล์ทันที

ในบทสรุป

Nvidia เปิดตัว eDiff-I เพื่อช่วยให้ธุรกิจสร้างภาพที่มีคุณภาพสูงและน่าสนใจ

เทคนิค eDiff-I ให้คุณภาพการสังเคราะห์ที่ดีกว่า DALL-E2 และ Stable diffusion

eDiff-I เป็นเครื่องมือสร้างเนื้อหา AI ใหม่ที่ ให้ ความสามารถในการสังเคราะห์ข้อความเป็นภาพที่ไม่เคยมีมาก่อนสำหรับนักการตลาดและธุรกิจ ซึ่งเพิ่งประกาศโดย Nvidia. ด้วย eDiff-I ธุรกิจสามารถสร้างภาพที่มีคุณภาพสูงและน่าสนใจได้อย่างรวดเร็วและง่ายดาย โดยไม่ต้องใช้อุปกรณ์ราคาแพงหรือความช่วยเหลือจากมืออาชีพ eDiff-I ใช้การประมวลผลภาษาธรรมชาติ (NLP) เพื่อตีความอินพุตของผู้ใช้และสร้างภาพที่สอดคล้องกัน จากนั้น AI จะวิเคราะห์ภาพและเลือกภาพที่เหมาะสมที่สุดตามบริบท ผลลัพธ์ที่ได้คือรูปภาพคุณภาพสูงที่ดูเป็นมืออาชีพ ซึ่งสามารถนำไปใช้เพื่อวัตถุประสงค์ต่างๆ ได้ เช่น เอกสารทางการตลาด โพสต์บนโซเชียลมีเดีย แคมเปญอีเมล และอื่นๆ

eDiff-ฉันคือ AI เจเนอเรชันแห่งอนาคต เครื่องมือสร้างเนื้อหาที่ไม่เคยมีมาก่อน ข้อความเป็นภาพ การสังเคราะห์ การถ่ายโอนรูปแบบที่รวดเร็ว และการระบายสีด้วยคำพูดที่ใช้งานง่าย ในฐานะที่เป็นแบบจำลองการแพร่กระจายสำหรับการสร้างภาพจริงจากข้อความ eDiff-I แนะนำให้ฝึกอบรมกลุ่มเครือข่าย denoising ผู้เชี่ยวชาญ โดยแต่ละเครือข่ายจะเชี่ยวชาญสำหรับช่วงสัญญาณรบกวนเฉพาะ เพื่อตอบสนองต่อการค้นพบเชิงประจักษ์ว่าพฤติกรรมของแบบจำลองการแพร่กระจายแตกต่างกันไปในแต่ละช่วงของการสุ่มตัวอย่าง

Nvidia ประกาศ eDiff-I: AI กำเนิดใหม่สำหรับการสังเคราะห์ข้อความและรูปภาพพร้อมการถ่ายโอนสไตล์ทันที

การฝังข้อความ T5 การฝังภาพ CLIP และการฝังข้อความ CLIP เป็นพื้นฐานสำหรับแนวคิด eDiff-I วิธีการนี้สามารถสร้างกราฟิกเสมือนจริงเพื่อตอบสนองข้อความค้นหาใดๆ

นำเสนอความสามารถเพิ่มเติมสองอย่างนอกเหนือจากการสังเคราะห์ข้อความเป็นรูปภาพ: (1) การถ่ายโอนสไตล์ ซึ่งช่วยให้เราสามารถควบคุมสไตล์ของตัวอย่างที่สร้างขึ้นโดยใช้รูปภาพสไตล์อ้างอิง และ (2) “ระบายสีด้วยคำ” ซึ่งเป็นเครื่องมือ ที่ช่วยให้ผู้ใช้สร้างภาพโดยการวาดภาพแผนที่การแบ่งส่วนบนผืนผ้าใบ

ท่อ
ท่อ

ไปป์ไลน์ประกอบด้วยแบบจำลองการแพร่กระจายสามแบบ: โมเดลพื้นฐานที่สามารถสร้างตัวอย่างที่มีความละเอียด 64 × 64 และสแต็กความละเอียดสูงพิเศษสองชุดที่สามารถค่อยๆ เพิ่มตัวอย่างรูปภาพเป็นความละเอียด 256 × 256 และ 1024 × 1024 ตามลำดับ โมเดลคำนวณ T5 XXL และการฝังข้อความหลังจากได้รับคำบรรยายเป็นอินพุต การฝังรูปภาพเหล่านี้สามารถใช้เป็นเวกเตอร์ของสไตล์ได้ จากนั้นป้อนสิ่งที่ฝังเหล่านี้ลงในน้ำตกของเรา แบบจำลองการแพร่กระจายซึ่งค่อยๆสร้างภาพที่มีความละเอียด 1024 x 1024

วิธีการ eDiff-I นั้นให้ผลลัพธ์ที่มีคุณภาพการสังเคราะห์ที่ดีกว่าอย่างสม่ำเสมอเมื่อเปรียบเทียบกับอัลกอริทึมการแปลงข้อความเป็นรูปภาพแบบโอเพ่นซอร์ส (Stable diffusion) และ (DALL-E2)

ผลสอบ
ผลสอบ

เมื่อใช้การฝังภาพ CLIP วิธี eDiff-I จะอำนวยความสะดวกในการถ่ายโอนสไตล์ eDiff-I ก่อนอื่นให้แยกไฟล์ CLIP การฝังรูปภาพจากรูปภาพสไตล์อ้างอิง ซึ่งสามารถใช้เป็นเวกเตอร์อ้างอิงสไตล์ได้ การอ้างอิงโวหารสามารถดูได้จากแผงด้านซ้ายของภาพด้านล่าง ผลลัพธ์เมื่อเปิดการปรับรูปแบบจะแสดงที่แผงตรงกลาง ผลลัพธ์เมื่อปิดการปรับรูปแบบจะแสดงในแผงทางด้านขวา เมื่อใช้การปรับสภาพสไตล์ โมเดล eDiff-I จะสร้างเอาต์พุตที่ตรงกับสไตล์ของคำบรรยายอินพุตเช่นกัน เมื่อปิดการปรับสไตล์ ภาพที่ได้จะดูเป็นธรรมชาติ

การถ่ายโอนสไตล์
การถ่ายโอนสไตล์

ผู้ใช้เมธอด eDiff-I สามารถเปลี่ยนตำแหน่งของสิ่งต่างๆ ที่แสดงรายการในข้อความแจ้งได้โดยการเลือกวลีและขีดเขียนลงบนภาพ หลังจากนั้นโมเดลจะใช้ พรอมต์และแผนที่เพื่อสร้างภาพ ที่เข้ากันได้กับทั้งคำอธิบายภาพและแผนที่อินพุต

อ่านบทความที่เกี่ยวข้อง:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
May 2, 2024
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
May 2, 2024
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
May 2, 2024
Med-Gemini ของ Google พร้อมที่จะเป็นผู้นำ GPT-4 ด้วยประสิทธิภาพที่เหนือกว่าในด้านการดูแลสุขภาพ
AI Wiki ข่าว ซอฟต์แวร์ เทคโนโลยี
Med-Gemini ของ Google พร้อมที่จะเป็นผู้นำ GPT-4 ด้วยประสิทธิภาพที่เหนือกว่าในด้านการดูแลสุขภาพ
May 2, 2024
CRYPTOMERIA LABS PTE. บจก.