Haber Raporu Teknoloji
23 Kasım 2022

Sber AI, 2.0'den fazla dilde üretim için ilk metinden görüntüye modeli olan Kandinsky 100'ı sundu.

Kısaca

İlk çok dilli difüzyon modeli olan Kandinsky 2.0, Sber AI ve SberDevices'ten 1 milyar metin-görüntü çiftinin birleşik veri setini kullanarak AI Yapay Zeka Enstitüsü araştırmacılarının yardımıyla Sber AI araştırmacıları tarafından oluşturuldu ve eğitildi.

Difüzyon, bir dizi dijital görüntü işleme görevinde giderek artan bir şekilde GAN'ların ve otoregresif modellerin yerini alıyor. Bu şaşırtıcı değil çünkü difüzyon öğrenmesi daha kolay, karmaşık bir hiperparametre seçimi, minimum-maks optimizasyonu gerektirmiyor ve öğrenme kararsızlığından muzdarip değil. Ve en önemlisi, difüzyon modelleri, neredeyse tüm üretken görevlerde - metinle görüntü oluşturma, ses oluşturma, video ve hatta 3D.

Sber AI, 2.0'den fazla dilde üretim için ilk metinden görüntüye modeli olan Kandinsky 100'ı sundu.
Kandinsky AI tarafından oluşturulan görüntü

Ne yazık ki, text-to-thing alanındaki çalışmaların çoğu yalnızca İngilizce ve Çince'ye odaklanıyor. Bu adaletsizliği düzeltmek için Sber AI yaratmaya karar verdi 2.0'den fazla dildeki sorguları anlayan çok dilli metinden görüntüye difüzyon modeli Kandinsky 100. SarılmaYüz zaten Kandinsky 2.0 sunuyor. SberAI ve SberDevices'ten araştırmacılar, işbirliği Bu projede Yapay Zeka Yapay Zeka Enstitüsü'nden uzmanlarla birlikte.

Difüzyon nedir?

2015 yazısında Dengesiz Termodinamiği Kullanan Derin Denetimsiz Öğrenme, difüzyon modelleri ilk önce dağılımı eşitleyen difüzyonla sonuçlanan bir maddenin karıştırılması eylemi olarak tanımlandı. Makalenin başlığından da anlaşılacağı gibi, difüzyon modellerinin açıklamasına termodinamik çerçevesinde yaklaştılar.

Görüntüler söz konusu olduğunda, böyle bir süreç, örneğin, Gauss gürültüsünün görüntüden kademeli olarak çıkarılmasına benzeyebilir.

Kağıt Difüzyon Modelleri Dövmek 2021'de yayınlanan Görüntü Sentezi Üzerine GAN'lar, difüzyon modellerinin GANS'a üstünlüğünü ilk gösteren oldu. Yazarlar ayrıca, sınıflandırıcı rehberliği olarak adlandırdıkları birinci nesil kontrol yaklaşımını (koşullandırma) tasarladılar. Bu yöntem, farklı bir sınıflandırıcıdan (örneğin köpekler) gradyanlar kullanarak amaçlanan sınıfa uyan nesneler oluşturur. Normalizasyon katsayılarının tahminini içeren Uyarlanabilir Grup Norm mekanizması aracılığıyla kontrolün kendisi gerçekleştirilir.

Bu makale, üretken AI alanında bir dönüm noktası olarak görülebilir ve birçok kişinin difüzyon çalışmasına yönelmesine yol açar. hakkında yeni makaleler metinden videoya, metinden 3D'ye, resim boyama, ses üretimiiçin difüzyon süper çözünürlükve hatta hareket üretimi birkaç haftada bir ortaya çıkmaya başladı.

Metinden resme difüzyon

Daha önce de belirttiğimiz gibi, gürültü azaltma ve gürültü giderme, tipik olarak görüntü modaliteleri bağlamında difüzyon işlemlerinin ana bileşenleridir, dolayısıyla UNet ve onun birçok varyasyonu sıklıkla temel mimari olarak kullanılır.

Metinden resme difüzyon
Metinden resme difüzyon

Buna dayalı bir imaj oluşturmak için bu metnin bir şekilde üretim sırasında dikkate alınması şarttır. yazarları OpenAI GLIDE modeliyle ilgili makale, metin için sınıflandırıcıdan bağımsız rehberlik yaklaşımının değiştirilmesini önerdi.

Dondurulmuş önceden ışınlanmış metin kodlayıcıların kullanılması ve gelecekte kademeli çözünürlük geliştirme mekanizması metin üretimini önemli ölçüde iyileştirdi (Görüntü). Metin bölümünü eğitmeye gerek olmadığı ortaya çıktı. metinden resme modeller donmuş T5-xxl kullanmak, görüntü kalitesini ve metni anlamada önemli ölçüde iyileşme sağladı ve çok daha az eğitim kaynağı kullandı.

Bir yazarın Gizli Difüzyon makale, resim bileşeninin aslında eğitim gerektirmediğini (en azından tamamen değil) gösterdi. Görsel bir kod çözücü olarak güçlü bir görüntü otomatik kodlayıcı (VQ-VAE veya KL-VAE) kullanırsak ve görüntünün kendisinden ziyade yayılma yoluyla gizli alanından gömmeler oluşturmaya çalışırsak, öğrenme daha da hızlı ilerleyecektir. Bu metodoloji aynı zamanda yakın zamanda yayınlanan Stable Diffusion model.

Kandinsky 2.0 AI modeli

Birkaç önemli iyileştirme ile Kandinsky 2.0, gelişmiş bir Gizli Yayılma tekniğini temel alır (görüntüleri değil, onların gizli vektörlerini yaparız):

  • İki çok dilli metin kodlayıcı kullandı ve yerleştirmelerini birleştirdi.
  • UNet eklendi (1.2 milyar parametre).
  • Örnekleme prosedürü dinamik eşikleme.
Kandinsky 2.0 AI modeli
Kandinsky 2.0 AI modeli

Araştırmacılar, aynı anda iki çok dilli kodlayıcı (XLMR-clip ve mT5-small) kullandılar. model gerçekten çok dilli. Bu nedenle, model İngilizce, Rusça, Fransızca ve Almanca'ya ek olarak Moğolca, İbranice ve Farsça gibi dilleri de anlayabilir. AI toplam 101 dil biliyor. Metni aynı anda iki model kullanarak kodlamaya neden karar verildi? XLMR-clip resimleri gördüğünden ve çeşitli diller için yakın yerleştirmeler sağladığından ve mT5-small karmaşık metinleri anlayabildiğinden, bu modeller farklı ama önemli özelliklere sahiptir. Her iki modelde de az sayıda parametre (560M ve 146M) bulunduğundan, ön testlerimizin de gösterdiği gibi, iki enkoderin aynı anda kullanılmasına karar verildi.

Aşağıdaki Kandinsky 2.0 AI modeli tarafından yeni oluşturulmuş görüntüler:

Kandinsky 2.0 model eğitimi nasıl yapıldı?

ML Space platformundaki eğitimlerde Christofari süper bilgisayarlarından yararlanılmıştır. Her biri 196 GB RAM'e sahip 100 NVIDIA A80 kart gerektiriyordu. Eğitimi tamamlamak 14 gün veya 65,856 GPU-saat sürdü. Analiz, 256×256 çözünürlükte beş gün sürdü, ardından 512×512 çözünürlükte altı gün, ardından en saf verilerde ek üç gün sürdü.

Eğitim verileri olarak, filigranlar, düşük çözünürlük ve CLIP puanı metriğiyle ölçüldüğü üzere metin açıklamasına düşük bağlılık için önceden filtrelenmiş birçok veri seti birleştirildi.

Çok dilli nesil

Kandinsky 2.0, kelimelerden görüntüler oluşturmak için ilk çok dilli modeldir ve bize dil kültürleri arasındaki dilsel ve görsel değişiklikleri değerlendirme şansı verir. Aynı sorgunun birkaç dile çevrilmesinin sonuçları aşağıda gösterilmiştir. Örneğin, Rusça "yüksek eğitimli bir kişi" sorgusu için nesil sonuçlarında yalnızca beyaz erkekler görünürken, Fransızca çeviri "Photo d'une personne diplômée de l'enseignement supérieur" için sonuçlar daha çeşitlidir. Şunu belirtmek isterim ki, yüksek öğrenim görmüş kederli insanlar sadece Rusça baskıda yer almaktadır.

Çok dilli nesil
Komut istemi: soyguncu (1. Rusça, 2. İngilizce, 3. Hintçe)
Çok dilli nesil
Komut istemi: yüksek öğrenim görmüş bir kişi (1. Rusça, 2. Fransızca, 3. Çince)
Çok dilli nesil
Komut istemi: ulusal bir yemek (1. Rusça, 2. Japonca, 3. Hintçe)

Devasa dil modelleri ve farklı yayılma süreci yöntemleriyle planlanan tonlarca deneme olmasına rağmen, Kandinsky 2.0'ın tamamen çok dilli ilk yaygınlaştırma modeli olduğunu şimdiden güvenle söyleyebiliriz! Üzerinde FusionBrain web sitesi ve Google İşbirliği, çizimlerinden örnekler görebilirsiniz.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hot Stories
Bültenimize Katılın.
En Yeni Haberler

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha

Samourai Cüzdan Kurucuları, Darknet Anlaşmalarında 2 Milyar Dolarlık Kolaylık Sağlamakla Suçlanıyor

Samourai Cüzdan kurucularının tutuklanması, sektör için kayda değer bir gerilemeyi temsil ediyor ve ısrarcı tutumun altını çiziyor ...

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Eigen Vakfı, Topluluk Eleştirilerinin Ardından Kullanıcılara Ek 100 EIGEN Tokenı Dağıtmayı Planlıyor
Piyasalar Haber Raporu Teknoloji
Eigen Vakfı, Topluluk Eleştirilerinin Ardından Kullanıcılara Ek 100 EIGEN Tokenı Dağıtmayı Planlıyor
Mayıs 3, 2024
Pantera Capital, TON Blockchain'e Yatırım Yapıyor ve Telegram'ın Kripto Erişilebilirliğini Genişletme Potansiyeline Güvendiğini İfade Ediyor
İşletme Haber Raporu Teknoloji
Pantera Capital, TON Blockchain'e Yatırım Yapıyor ve Telegram'ın Kripto Erişilebilirliğini Genişletme Potansiyeline Güvendiğini İfade Ediyor
Mayıs 2, 2024
Mitosis, Modüler Likidite Protokolünü Geliştirmek İçin Amber Group ve Foresight Ventures'tan 7 Milyon Dolarlık Finansman Sağladı
İşletme Haber Raporu Teknoloji
Mitosis, Modüler Likidite Protokolünü Geliştirmek İçin Amber Group ve Foresight Ventures'tan 7 Milyon Dolarlık Finansman Sağladı
Mayıs 2, 2024
Galxe, Küresel Erişilebilirliği Genişletmek İçin Jambo ile İşbirliği Yapıyor Web3
İşletme Haber Raporu Teknoloji
Galxe, Küresel Erişilebilirliği Genişletmek İçin Jambo ile İşbirliği Yapıyor Web3
Mayıs 2, 2024
CRYPTOMERIA LABS PTE. LTD.