Sber AI ได้นำเสนอ Kandinsky 2.0 ซึ่งเป็นโมเดลข้อความเป็นรูปภาพตัวแรกสำหรับสร้างในกว่า 100 ภาษา
ในบทสรุป
Kandinsky 2.0 ซึ่งเป็นโมเดลการแพร่กระจายหลายภาษาตัวแรกถูกสร้างขึ้นและฝึกฝนโดยนักวิจัยของ Sber AI ด้วยความช่วยเหลือจากนักวิจัยจากสถาบันปัญญาประดิษฐ์ AI โดยใช้ชุดข้อมูลรวมของคู่ข้อความและรูปภาพ 1 พันล้านคู่จาก Sber AI และ SberDevices
การแพร่กระจายกำลังเข้ามาแทนที่ GAN และโมเดล autoregressive ในงานประมวลผลภาพดิจิทัลจำนวนหนึ่ง สิ่งนี้ไม่น่าแปลกใจเพราะการแพร่กระจายนั้นง่ายต่อการเรียนรู้ ไม่ต้องการการเลือกพารามิเตอร์ที่ซับซ้อน การปรับให้เหมาะสมขั้นต่ำ-สูงสุด และไม่ได้รับผลกระทบจากความไม่เสถียรในการเรียนรู้ และที่สำคัญที่สุดคือ แบบจำลองการแพร่กระจายแสดงผลลัพธ์ที่ล้ำสมัยสำหรับงานสร้างเกือบทั้งหมด — การสร้างภาพตามข้อความ การสร้างเสียง วิดีโอ และแม้แต่ 3D.
น่าเสียดายที่งานส่วนใหญ่ในสาขา text-to-something เน้นเฉพาะภาษาอังกฤษและภาษาจีนเท่านั้น เพื่อแก้ไขความอยุติธรรมนี้ Sber AI ตัดสินใจที่จะสร้าง โมเดลการแพร่กระจายข้อความเป็นรูปภาพหลายภาษา Kandinsky 2.0 ซึ่งเข้าใจข้อความค้นหาในมากกว่า 100 ภาษา กอดใบหน้า มี Kandinsky 2.0 อยู่แล้ว นักวิจัยจาก SberAI และ SberDevices ได้ ร่วมมือ กับผู้เชี่ยวชาญจากสถาบันปัญญาประดิษฐ์เอไอในโครงการนี้
การแพร่กระจายคืออะไร?
ในบทความปี 2015 การเรียนรู้แบบ Deep Unsupervised โดยใช้อุณหพลศาสตร์ที่ไม่สมดุลแบบจำลองการแพร่กระจายได้รับการอธิบายเป็นครั้งแรกว่าเป็นการผสมสารที่ทำให้เกิดการแพร่ ซึ่งทำให้การกระจายเท่ากัน ตามที่ชื่อบทความบอกเป็นนัย พวกเขาเข้าใกล้คำอธิบายของแบบจำลองการแพร่กระจายผ่านกรอบของอุณหพลศาสตร์
ในกรณีของภาพ กระบวนการดังกล่าวอาจคล้ายคลึงกัน เช่น ค่อยๆ ลบสัญญาณรบกวนแบบเกาส์เซียนออกจากภาพ
แบบจำลองการแพร่กระจายของกระดาษ ชนะ GAN ในการสังเคราะห์รูปภาพ ซึ่งเผยแพร่ในปี 2021 เป็นรายแรกที่แสดงความเหนือกว่าของแบบจำลองการแพร่กระจายเหนือ GANS ผู้เขียนยังได้คิดค้นวิธีการควบคุมรุ่นแรก (การปรับสภาพ) ซึ่งพวกเขาตั้งชื่อว่าแนวทางการจำแนกประเภท วิธีนี้สร้างวัตถุที่เหมาะกับคลาสที่ต้องการโดยใช้การไล่ระดับสีจากตัวแยกประเภทอื่น (เช่น สุนัข) ผ่านกลไก Adaptive Group Norm ซึ่งเกี่ยวข้องกับการคาดการณ์ค่าสัมประสิทธิ์การทำให้เป็นมาตรฐาน การควบคุมจะดำเนินการเอง
บทความนี้สามารถมองได้ว่าเป็นจุดเปลี่ยนในด้านของ AI กำเนิด ซึ่งทำให้หลายคนหันไปศึกษาการแพร่กระจาย บทความใหม่เกี่ยวกับ ข้อความเป็นวิดีโอ, ข้อความเป็น 3 มิติ, ภาพ ภาพวาด, การสร้างเสียง,การแพร่กระจายสำหรับ ความละเอียดสูงและแม้แต่การสร้างการเคลื่อนไหวก็เริ่มปรากฏขึ้นทุกๆ สองสามสัปดาห์
การแพร่กระจายข้อความเป็นรูปภาพ
ดังที่เราได้กล่าวไว้ก่อนหน้านี้ การลดสัญญาณรบกวนและการกำจัดสัญญาณรบกวนมักเป็นองค์ประกอบหลักของกระบวนการกระจายในบริบทของรูปแบบภาพ ดังนั้น UNet และรูปแบบต่างๆ ของมันจึงมักถูกใช้เป็นสถาปัตยกรรมพื้นฐาน
จำเป็นอย่างยิ่งที่ข้อความนี้จะต้องนำมาพิจารณาในทางใดทางหนึ่งในระหว่างการสร้างเพื่อสร้างภาพตามข้อความนั้น ผู้เขียนของ OpenAI บทความเกี่ยวกับโมเดล GLIDE แนะนำให้แก้ไขแนวทางคำแนะนำแบบไม่มีตัวแยกประเภทสำหรับข้อความ
การใช้ตัวเข้ารหัสข้อความแช่แข็งก่อนการฉายรังสีและกลไกการปรับปรุงความละเอียดของน้ำตกในอนาคตทำให้การผลิตข้อความดีขึ้นอย่างมาก (ภาพ). ปรากฎว่าไม่จำเป็นต้องฝึกส่วนข้อความของ โมเดลข้อความเป็นรูปภาพ เนื่องจากการใช้ T5-xxl แบบแช่แข็งส่งผลให้คุณภาพของภาพและความเข้าใจข้อความดีขึ้นอย่างมาก และใช้ทรัพยากรการฝึกอบรมน้อยลงมาก
ผู้เขียนของ การแพร่กระจายแฝง บทความแสดงให้เห็นว่าจริง ๆ แล้วองค์ประกอบรูปภาพไม่ต้องการการฝึกอบรม (อย่างน้อยก็ไม่สมบูรณ์) การเรียนรู้จะดำเนินไปอย่างรวดเร็วยิ่งขึ้นหากเราใช้ตัวเข้ารหัสรูปภาพอัตโนมัติที่ทรงพลัง (VQ-VAE หรือ KL-VAE) เป็นตัวถอดรหัสภาพและพยายามสร้างการฝังจากพื้นที่แฝงโดยการแพร่กระจายแทนที่จะเป็นรูปภาพ วิธีการนี้ยังเป็นรากฐานของวิธีการที่เพิ่งเปิดตัว Stable Diffusion แบบ.
คันดินสกี้ 2.0 โมเดลเอไอ
ด้วยการปรับปรุงที่สำคัญบางประการ Kandinsky 2.0 ใช้เทคนิคการแพร่กระจายแฝงที่ได้รับการปรับปรุง (เราไม่ได้สร้างภาพ แต่สร้างเวกเตอร์แฝง):
- ใช้ตัวเข้ารหัสข้อความหลายภาษาสองตัวและเชื่อมต่อการฝังเข้าด้วยกัน
- เพิ่ม UNet (1.2 พันล้านพารามิเตอร์)
- เกณฑ์แบบไดนามิกของขั้นตอนการสุ่มตัวอย่าง
นักวิจัยใช้ตัวเข้ารหัสหลายภาษาพร้อมกัน 5 ตัว คือ XLMR-clip และ mTXNUMX-small เพื่อสร้าง แบบ พูดได้หลายภาษาจริงๆ ดังนั้น นอกจากภาษาอังกฤษ รัสเซีย ฝรั่งเศส และเยอรมัน โมเดลยังสามารถเข้าใจภาษาต่างๆ เช่น ภาษามองโกเลีย ภาษาฮีบรู และฟาร์ซี AI รู้ภาษาทั้งหมด 101 ภาษา เหตุใดจึงตัดสินใจเข้ารหัสข้อความโดยใช้สองโมเดลพร้อมกัน เนื่องจาก XLMR-clip มองเห็นภาพและให้การฝังที่ใกล้เคียงสำหรับภาษาต่างๆ และ mT5-small สามารถเข้าใจข้อความที่ซับซ้อน โมเดลเหล่านี้จึงมีคุณสมบัติที่แตกต่างแต่มีความสำคัญ เนื่องจากทั้งสองรุ่นมีพารามิเตอร์เพียงเล็กน้อย (560M และ 146M) ดังที่แสดงโดยการทดสอบเบื้องต้นของเรา จึงตัดสินใจใช้ตัวเข้ารหัสสองตัวพร้อมกัน
รูปภาพที่สร้างขึ้นใหม่โดยโมเดล Kandinsky 2.0 AI ด้านล่าง:
การฝึกอบรมแบบจำลอง Kandinsky 2.0 เป็นอย่างไร
ซูเปอร์คอมพิวเตอร์ของ Christofari ถูกนำมาใช้ในการฝึกอบรมบนแพลตฟอร์ม ML Space ต้องการการ์ด NVIDIA A196 จำนวน 100 การ์ด โดยแต่ละการ์ดมี RAM ขนาด 80 GB ใช้เวลา 14 วันหรือ 65,856 GPU-ชั่วโมงในการฝึกอบรมให้เสร็จสิ้น การวิเคราะห์ใช้เวลาห้าวันที่ความละเอียด 256×256 ตามด้วยหกวันที่ความละเอียด 512×512 จากนั้นเพิ่มอีกสามวันสำหรับข้อมูลที่บริสุทธิ์ที่สุด
ในฐานะที่เป็นข้อมูลการฝึกอบรม มีการรวมชุดข้อมูลจำนวนมากที่ได้รับการกรองล่วงหน้าสำหรับลายน้ำ ความละเอียดต่ำ และการปฏิบัติตามคำอธิบายข้อความต่ำที่วัดโดยเมตริกคะแนน CLIP
รุ่นหลายภาษา
Kandinsky 2.0 เป็นโมเดลหลายภาษาตัวแรกสำหรับการสร้างรูปภาพจากคำ ทำให้เรามีโอกาสแรกในการประเมินการเปลี่ยนแปลงทางภาษาและการมองเห็นในวัฒนธรรมภาษาต่างๆ ผลลัพธ์ของการแปลข้อความค้นหาเดียวกันเป็นหลายภาษาแสดงไว้ด้านล่าง ตัวอย่างเช่น มีเพียงชายผิวขาวเท่านั้นที่ปรากฏในผลการค้นหารุ่นสำหรับข้อความค้นหาภาษารัสเซีย "บุคคลที่มีการศึกษาสูง" ในขณะที่ผลลัพธ์สำหรับการแปลภาษาฝรั่งเศส "Photo d'une personne diplômée de l'enseignement supérieur" มีความหลากหลายมากกว่า ฉันต้องการชี้ให้เห็นว่าคนที่เศร้าโศกที่มีการศึกษาสูงมีอยู่ในฉบับภาษารัสเซียเท่านั้น
แม้ว่าจะยังมีการทดลองอีกมากกับโมเดลภาษาขนาดใหญ่และวิธีการต่างๆ ของกระบวนการแพร่ที่วางแผนไว้ แต่เราสามารถพูดได้อย่างมั่นใจแล้วว่า Kandinsky 2.0 เป็นโมเดลการเผยแพร่แบบหลายภาษาโดยสิ้นเชิงตัวแรก! บน เว็บไซต์ FusionBrain และ Google Colabคุณอาจเห็นตัวอย่างภาพวาดของเธอ
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต