รายงานข่าว เทคโนโลยี
November 23, 2022

Sber AI ได้นำเสนอ Kandinsky 2.0 ซึ่งเป็นโมเดลข้อความเป็นรูปภาพตัวแรกสำหรับสร้างในกว่า 100 ภาษา

ในบทสรุป

Kandinsky 2.0 ซึ่งเป็นโมเดลการแพร่กระจายหลายภาษาตัวแรกถูกสร้างขึ้นและฝึกฝนโดยนักวิจัยของ Sber AI ด้วยความช่วยเหลือจากนักวิจัยจากสถาบันปัญญาประดิษฐ์ AI โดยใช้ชุดข้อมูลรวมของคู่ข้อความและรูปภาพ 1 พันล้านคู่จาก Sber AI และ SberDevices

การแพร่กระจายกำลังเข้ามาแทนที่ GAN และโมเดล autoregressive ในงานประมวลผลภาพดิจิทัลจำนวนหนึ่ง สิ่งนี้ไม่น่าแปลกใจเพราะการแพร่กระจายนั้นง่ายต่อการเรียนรู้ ไม่ต้องการการเลือกพารามิเตอร์ที่ซับซ้อน การปรับให้เหมาะสมขั้นต่ำ-สูงสุด และไม่ได้รับผลกระทบจากความไม่เสถียรในการเรียนรู้ และที่สำคัญที่สุดคือ แบบจำลองการแพร่กระจายแสดงผลลัพธ์ที่ล้ำสมัยสำหรับงานสร้างเกือบทั้งหมด — การสร้างภาพตามข้อความ การสร้างเสียง วิดีโอ และแม้แต่ 3D.

Sber AI ได้นำเสนอ Kandinsky 2.0 ซึ่งเป็นโมเดลข้อความเป็นรูปภาพตัวแรกสำหรับสร้างในกว่า 100 ภาษา
ภาพที่สร้างโดย Kandinsky AI

น่าเสียดายที่งานส่วนใหญ่ในสาขา text-to-something เน้นเฉพาะภาษาอังกฤษและภาษาจีนเท่านั้น เพื่อแก้ไขความอยุติธรรมนี้ Sber AI ตัดสินใจที่จะสร้าง โมเดลการแพร่กระจายข้อความเป็นรูปภาพหลายภาษา Kandinsky 2.0 ซึ่งเข้าใจข้อความค้นหาในมากกว่า 100 ภาษา กอดใบหน้า มี Kandinsky 2.0 อยู่แล้ว นักวิจัยจาก SberAI และ SberDevices ได้ ร่วมมือ กับผู้เชี่ยวชาญจากสถาบันปัญญาประดิษฐ์เอไอในโครงการนี้

การแพร่กระจายคืออะไร?

ในบทความปี 2015 การเรียนรู้แบบ Deep Unsupervised โดยใช้อุณหพลศาสตร์ที่ไม่สมดุลแบบจำลองการแพร่กระจายได้รับการอธิบายเป็นครั้งแรกว่าเป็นการผสมสารที่ทำให้เกิดการแพร่ ซึ่งทำให้การกระจายเท่ากัน ตามที่ชื่อบทความบอกเป็นนัย พวกเขาเข้าใกล้คำอธิบายของแบบจำลองการแพร่กระจายผ่านกรอบของอุณหพลศาสตร์

ในกรณีของภาพ กระบวนการดังกล่าวอาจคล้ายคลึงกัน เช่น ค่อยๆ ลบสัญญาณรบกวนแบบเกาส์เซียนออกจากภาพ

แบบจำลองการแพร่กระจายของกระดาษ ชนะ GAN ในการสังเคราะห์รูปภาพ ซึ่งเผยแพร่ในปี 2021 เป็นรายแรกที่แสดงความเหนือกว่าของแบบจำลองการแพร่กระจายเหนือ GANS ผู้เขียนยังได้คิดค้นวิธีการควบคุมรุ่นแรก (การปรับสภาพ) ซึ่งพวกเขาตั้งชื่อว่าแนวทางการจำแนกประเภท วิธีนี้สร้างวัตถุที่เหมาะกับคลาสที่ต้องการโดยใช้การไล่ระดับสีจากตัวแยกประเภทอื่น (เช่น สุนัข) ผ่านกลไก Adaptive Group Norm ซึ่งเกี่ยวข้องกับการคาดการณ์ค่าสัมประสิทธิ์การทำให้เป็นมาตรฐาน การควบคุมจะดำเนินการเอง

บทความนี้สามารถมองได้ว่าเป็นจุดเปลี่ยนในด้านของ AI กำเนิด ซึ่งทำให้หลายคนหันไปศึกษาการแพร่กระจาย บทความใหม่เกี่ยวกับ ข้อความเป็นวิดีโอ, ข้อความเป็น 3 มิติ, ภาพ ภาพวาด, การสร้างเสียง,การแพร่กระจายสำหรับ ความละเอียดสูงและแม้แต่การสร้างการเคลื่อนไหวก็เริ่มปรากฏขึ้นทุกๆ สองสามสัปดาห์

การแพร่กระจายข้อความเป็นรูปภาพ

ดังที่เราได้กล่าวไว้ก่อนหน้านี้ การลดสัญญาณรบกวนและการกำจัดสัญญาณรบกวนมักเป็นองค์ประกอบหลักของกระบวนการกระจายในบริบทของรูปแบบภาพ ดังนั้น UNet และรูปแบบต่างๆ ของมันจึงมักถูกใช้เป็นสถาปัตยกรรมพื้นฐาน

การแพร่กระจายข้อความเป็นรูปภาพ
การแพร่กระจายข้อความเป็นรูปภาพ

จำเป็นอย่างยิ่งที่ข้อความนี้จะต้องนำมาพิจารณาในทางใดทางหนึ่งในระหว่างการสร้างเพื่อสร้างภาพตามข้อความนั้น ผู้เขียนของ OpenAI บทความเกี่ยวกับโมเดล GLIDE แนะนำให้แก้ไขแนวทางคำแนะนำแบบไม่มีตัวแยกประเภทสำหรับข้อความ

การใช้ตัวเข้ารหัสข้อความแช่แข็งก่อนการฉายรังสีและกลไกการปรับปรุงความละเอียดของน้ำตกในอนาคตทำให้การผลิตข้อความดีขึ้นอย่างมาก (ภาพ). ปรากฎว่าไม่จำเป็นต้องฝึกส่วนข้อความของ โมเดลข้อความเป็นรูปภาพ เนื่องจากการใช้ T5-xxl แบบแช่แข็งส่งผลให้คุณภาพของภาพและความเข้าใจข้อความดีขึ้นอย่างมาก และใช้ทรัพยากรการฝึกอบรมน้อยลงมาก

ผู้เขียนของ การแพร่กระจายแฝง บทความแสดงให้เห็นว่าจริง ๆ แล้วองค์ประกอบรูปภาพไม่ต้องการการฝึกอบรม (อย่างน้อยก็ไม่สมบูรณ์) การเรียนรู้จะดำเนินไปอย่างรวดเร็วยิ่งขึ้นหากเราใช้ตัวเข้ารหัสรูปภาพอัตโนมัติที่ทรงพลัง (VQ-VAE หรือ KL-VAE) เป็นตัวถอดรหัสภาพและพยายามสร้างการฝังจากพื้นที่แฝงโดยการแพร่กระจายแทนที่จะเป็นรูปภาพ วิธีการนี้ยังเป็นรากฐานของวิธีการที่เพิ่งเปิดตัว Stable Diffusion แบบ.

คันดินสกี้ 2.0 โมเดลเอไอ

ด้วยการปรับปรุงที่สำคัญบางประการ Kandinsky 2.0 ใช้เทคนิคการแพร่กระจายแฝงที่ได้รับการปรับปรุง (เราไม่ได้สร้างภาพ แต่สร้างเวกเตอร์แฝง):

  • ใช้ตัวเข้ารหัสข้อความหลายภาษาสองตัวและเชื่อมต่อการฝังเข้าด้วยกัน
  • เพิ่ม UNet (1.2 พันล้านพารามิเตอร์)
  • เกณฑ์แบบไดนามิกของขั้นตอนการสุ่มตัวอย่าง
คันดินสกี้ 2.0 โมเดลเอไอ
คันดินสกี้ 2.0 โมเดลเอไอ

นักวิจัยใช้ตัวเข้ารหัสหลายภาษาพร้อมกัน 5 ตัว คือ XLMR-clip และ mTXNUMX-small เพื่อสร้าง แบบ พูดได้หลายภาษาจริงๆ ดังนั้น นอกจากภาษาอังกฤษ รัสเซีย ฝรั่งเศส และเยอรมัน โมเดลยังสามารถเข้าใจภาษาต่างๆ เช่น ภาษามองโกเลีย ภาษาฮีบรู และฟาร์ซี AI รู้ภาษาทั้งหมด 101 ภาษา เหตุใดจึงตัดสินใจเข้ารหัสข้อความโดยใช้สองโมเดลพร้อมกัน เนื่องจาก XLMR-clip มองเห็นภาพและให้การฝังที่ใกล้เคียงสำหรับภาษาต่างๆ และ mT5-small สามารถเข้าใจข้อความที่ซับซ้อน โมเดลเหล่านี้จึงมีคุณสมบัติที่แตกต่างแต่มีความสำคัญ เนื่องจากทั้งสองรุ่นมีพารามิเตอร์เพียงเล็กน้อย (560M และ 146M) ดังที่แสดงโดยการทดสอบเบื้องต้นของเรา จึงตัดสินใจใช้ตัวเข้ารหัสสองตัวพร้อมกัน

รูปภาพที่สร้างขึ้นใหม่โดยโมเดล Kandinsky 2.0 AI ด้านล่าง:

การฝึกอบรมแบบจำลอง Kandinsky 2.0 เป็นอย่างไร

ซูเปอร์คอมพิวเตอร์ของ Christofari ถูกนำมาใช้ในการฝึกอบรมบนแพลตฟอร์ม ML Space ต้องการการ์ด NVIDIA A196 จำนวน 100 การ์ด โดยแต่ละการ์ดมี RAM ขนาด 80 GB ใช้เวลา 14 วันหรือ 65,856 GPU-ชั่วโมงในการฝึกอบรมให้เสร็จสิ้น การวิเคราะห์ใช้เวลาห้าวันที่ความละเอียด 256×256 ตามด้วยหกวันที่ความละเอียด 512×512 จากนั้นเพิ่มอีกสามวันสำหรับข้อมูลที่บริสุทธิ์ที่สุด

ในฐานะที่เป็นข้อมูลการฝึกอบรม มีการรวมชุดข้อมูลจำนวนมากที่ได้รับการกรองล่วงหน้าสำหรับลายน้ำ ความละเอียดต่ำ และการปฏิบัติตามคำอธิบายข้อความต่ำที่วัดโดยเมตริกคะแนน CLIP

รุ่นหลายภาษา

Kandinsky 2.0 เป็นโมเดลหลายภาษาตัวแรกสำหรับการสร้างรูปภาพจากคำ ทำให้เรามีโอกาสแรกในการประเมินการเปลี่ยนแปลงทางภาษาและการมองเห็นในวัฒนธรรมภาษาต่างๆ ผลลัพธ์ของการแปลข้อความค้นหาเดียวกันเป็นหลายภาษาแสดงไว้ด้านล่าง ตัวอย่างเช่น มีเพียงชายผิวขาวเท่านั้นที่ปรากฏในผลการค้นหารุ่นสำหรับข้อความค้นหาภาษารัสเซีย "บุคคลที่มีการศึกษาสูง" ในขณะที่ผลลัพธ์สำหรับการแปลภาษาฝรั่งเศส "Photo d'une personne diplômée de l'enseignement supérieur" มีความหลากหลายมากกว่า ฉันต้องการชี้ให้เห็นว่าคนที่เศร้าโศกที่มีการศึกษาสูงมีอยู่ในฉบับภาษารัสเซียเท่านั้น

รุ่นหลายภาษา
Prompt: โจร (1. รัสเซีย 2. อังกฤษ 3. ฮินดี)
รุ่นหลายภาษา
Prompt: บุคคลที่มีการศึกษาสูง (1. รัสเซีย 2. ฝรั่งเศส 3. จีน)
รุ่นหลายภาษา
Prompt: อาหารประจำชาติ (1. รัสเซีย 2. ญี่ปุ่น 3. ฮินดี)

แม้ว่าจะยังมีการทดลองอีกมากกับโมเดลภาษาขนาดใหญ่และวิธีการต่างๆ ของกระบวนการแพร่ที่วางแผนไว้ แต่เราสามารถพูดได้อย่างมั่นใจแล้วว่า Kandinsky 2.0 เป็นโมเดลการเผยแพร่แบบหลายภาษาโดยสิ้นเชิงตัวแรก! บน เว็บไซต์ FusionBrain และ Google Colabคุณอาจเห็นตัวอย่างภาพวาดของเธอ

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
สมาชิกสภานิติบัญญัติแห่งฮ่องกง Wu Jiezhuang ส่งสัญญาณการฟ้องร้องทางแพ่งต่อ JPEX Crypto Exchange
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
สมาชิกสภานิติบัญญัติแห่งฮ่องกง Wu Jiezhuang ส่งสัญญาณการฟ้องร้องทางแพ่งต่อ JPEX Crypto Exchange
May 2, 2024
AltLayer เข้าสู่ระยะที่สองของโครงการริเริ่ม Stake พร้อมเปิดตัวโทเค็น reALT
ตลาด รายงานข่าว เทคโนโลยี
AltLayer เข้าสู่ระยะที่สองของโครงการริเริ่ม Stake พร้อมเปิดตัวโทเค็น reALT
May 2, 2024
BNB Chain เผยแพร่รายงานไตรมาสที่ 1 ปี 2024 เน้นย้ำถึงการสูญเสียมูลค่าที่ลดลง 55.8% ในขณะที่ BSC TVL ทะยานขึ้น 70.8%
ตลาด รายงานข่าว เทคโนโลยี
BNB Chain เผยแพร่รายงานไตรมาสที่ 1 ปี 2024 เน้นย้ำถึงการสูญเสียมูลค่าที่ลดลง 55.8% ในขณะที่ BSC TVL ทะยานขึ้น 70.8%
May 2, 2024
Kaia ของ Naver และ Kakao: ขุมพลังบล็อคเชนแห่งเอเชียแห่งใหม่พร้อมที่จะขัดขวางตลาด Crypto ทั่วโลก
บัญชีธุรกิจ ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
Kaia ของ Naver และ Kakao: ขุมพลังบล็อคเชนแห่งเอเชียแห่งใหม่พร้อมที่จะขัดขวางตลาด Crypto ทั่วโลก
May 2, 2024
CRYPTOMERIA LABS PTE. บจก.