รายงานข่าว เทคโนโลยี
September 19, 2023

Würstchen V2 Model มีชัยเหนือ Stable Diffusion XL พร้อมความเร็วอันน่าทึ่งสำหรับการสร้างภาพที่มีความละเอียดสูง

ทวีตล่าสุด โดยผู้เขียนบทความชื่อ “Würstchen” (ภาษาเยอรมันสำหรับ “ไส้กรอก”) ได้รับความสนใจจากทั้งผู้ที่ชื่นชอบและผู้เชี่ยวชาญ ทวีตได้แชร์ผลลัพธ์อันน่าทึ่งของการสร้างภาพโดยใช้โมเดล Würstchen V2 ใหม่

Würstchen V2 Model มีชัยเหนือ Stable Diffusion XL พร้อมความเร็วอันน่าทึ่งสำหรับการสร้างภาพที่มีความละเอียดสูง
ที่เกี่ยวข้อง: Midjourney 5.2 และ Stable Diffusion การอัปเดต SDXL 0.9 สำหรับการสร้างข้อความเป็นรูปภาพที่สร้างสรรค์

Würstchen รวดเร็วและมีประสิทธิภาพ สร้างภาพได้เร็วกว่ารุ่นต่างๆ เช่น Stable Diffusion XL ในขณะที่ใช้หน่วยความจำน้อย นอกจากนี้ยังลดต้นทุนการฝึกอบรมด้วย Würstchen v1 ใช้เวลาฝึกอบรมเพียง 9,000 GPU ชั่วโมงที่ความละเอียด 512×512 เทียบกับ 150,000 ชั่วโมง GPU ที่ใช้ใน Stable Diffusion 1.4. การลดต้นทุนลง 16 เท่านี้ไม่เพียงแต่เป็นประโยชน์ต่อนักวิจัยที่ทำการทดลองใหม่ๆ แต่ยังเป็นการเปิดประตูให้องค์กรต่างๆ จำนวนมากขึ้นในการฝึกอบรมโมเดลดังกล่าว Würstchen v2 ใช้เวลา 24,602 GPU ชั่วโมง ทำให้ราคาถูกกว่า SD6 ถึง 1.4 เท่า ซึ่งได้รับการฝึกฝนที่ 512×512 เท่านั้น

คุณสมบัติที่โดดเด่นประการหนึ่งที่ดึงดูดสายตาของชุมชน AI ในทันทีคือความเร็วที่น่าประทับใจของ Würstchen V2 ตามที่ผู้เขียนกล่าวไว้ การสร้างภาพขนาด 1024×2048 จำนวน 7 ภาพโดยใช้โมเดลนี้ใช้เวลาเพียง 40 วินาที เพื่อให้เข้าใจถึงสิ่งนี้ โมเดล SDXL จะต้องใช้เวลา XNUMX วินาทีที่ค่อนข้างช้าในการบรรลุงานเดียวกัน

Würstchen V1 ซึ่งเปิดตัวไปก่อนหน้านี้ มีรากฐานเดียวกันกับ SDXL ในรูปแบบแฝง แบบจำลองการแพร่กระจาย แต่รวมเอาสถาปัตยกรรม Unet ที่เร็วขึ้น ในขณะที่ชุมชนคาดหวังรายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรมของ Würstchen V2 อย่างใจจดใจจ่อ ความเร็วที่เพิ่มขึ้นเพียงอย่างเดียวก็ถือเป็นการพัฒนาที่น่าสังเกต

เวิร์สเชน วี2 คือ. แบบจำลองการแพร่กระจาย ซึ่งทำงานในพื้นที่รูปภาพแฝงที่มีการบีบอัดสูง ซึ่งช่วยลดค่าใช้จ่ายในการคำนวณสำหรับการฝึกอบรมและการอนุมานตามลำดับความสำคัญ มีการออกแบบใหม่ที่สามารถบีบอัดเชิงพื้นที่ได้ 42 เท่า ซึ่งถือเป็นความสำเร็จที่ไม่เคยพบเห็นมาก่อน Würstchen ใช้การบีบอัดสองขั้นตอน คือ ขั้น A และขั้น B ซึ่งถอดรหัสภาพที่บีบอัดกลับลงในพื้นที่พิกเซล โมเดลที่สาม Stage C ได้รับการเรียนรู้ในพื้นที่แฝงที่มีการบีบอัดสูง โดยต้องใช้เศษส่วนของการประมวลผลที่ใช้สำหรับโมเดลที่มีประสิทธิภาพสูงสุดในปัจจุบัน ในขณะเดียวกันก็ให้การอนุมานที่ถูกกว่าและรวดเร็วกว่า

Würstchen V2 ประกอบด้วยสองระยะการแพร่กระจาย:

  • ด่าน ก: ขั้นตอนนี้เกี่ยวข้องกับการแพร่กระจายแบบมีเงื่อนไขด้วยข้อความและมีพารามิเตอร์มากถึง 1 พันล้านพารามิเตอร์ การเร่งความเร็วเกิดขึ้นได้จากเทคนิคการบีบอัดที่สูงเป็นพิเศษ ที่น่าสังเกตคือ แทนที่จะเป็นรหัสที่ซ่อนอยู่ขนาด 128x128x4 ดังที่เห็นใน SDXL Würstchen V2 ในตอนแรกจะทำงานที่ความละเอียด 24x24x16 ซึ่งหมายความว่าพิกเซลน้อยลงแต่มีช่องสัญญาณมากขึ้น ส่งผลให้ความเร็วเพิ่มขึ้นอย่างมาก
  • ด่าน B: นี่คือโมเดลการแพร่กระจายที่มีพารามิเตอร์ 600 ล้านพารามิเตอร์ ซึ่งทำหน้าที่ขยายขนาดภาพจาก 24×24 เป็นความละเอียด 128×128

การทำให้กระบวนการเสร็จสมบูรณ์คือตัวถอดรหัสที่มีพารามิเตอร์ 20 ล้านพารามิเตอร์ที่จะแปลงโค้ดที่ซ่อนอยู่ให้เป็นภาพที่เรนเดอร์

ประโยชน์ในทางปฏิบัติที่โดดเด่นในทันทีคือความเร็วอันน่าทึ่งของ Würstchen V2 ทำงานด้วยความเร็วที่เร็วกว่า SDXL ถึง 2-2.5 เท่า ซึ่งเป็นความก้าวหน้าที่โดดเด่นในด้าน การสร้างภาพ AI.

เช่นเดียวกับนวัตกรรมทางเทคโนโลยีอื่นๆ อาจมีการแลกเปลี่ยนกัน ในแง่ของคุณภาพของภาพ ผู้เชี่ยวชาญบางคนแนะนำว่ามีการสูญเสียเล็กน้อย แม้ว่าการเปรียบเทียบที่ครอบคลุมและตรงไปตรงมายังคงรออยู่เพื่อให้หลักฐานที่เป็นรูปธรรม

ตัวอย่างข้อความเป็นรูปภาพที่สร้างขึ้นอยู่ด้านล่าง:

อ่านหัวข้อที่เกี่ยวข้องเพิ่มเติม:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
บัญชีธุรกิจ ตลาด เรื่องราวและบทวิจารณ์ เทคโนโลยี
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
May 10, 2024
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
ตลาด รายงานข่าว เทคโนโลยี
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
May 10, 2024
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
ตลาด Security Wiki ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
May 10, 2024
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
รายงานข่าว เทคโนโลยี
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
May 10, 2024
CRYPTOMERIA LABS PTE. บจก.