Ağustos 01, 2023

Is GPT-4 Robotik Teknolojisini Güçlendirmek mi İstiyorsunuz? RT-2 Neden Herşeyi Değiştiriyor?

Yayınlanma: 01 Ağustos 2023, 3:58 Güncelleme: 01 Ağustos 2023, 3:58

Düzenlendi ve doğruluk kontrolü yapıldı: 01 Ağustos 2023, 3:58

Kısaca

Google DeepMind, aşağıdakiler için görüntü dili modeli uygulamaları geliştirmiştir: uçtan uca robotik kontrol, bilgileri alanlar arasında genelleştirme ve aktarma becerilerine odaklanıyor.

Büyük miktarda bilgiyi kodlayabilen diziler oluşturmak için tasarlanan RT-2 modeli, alışılmadık nesneler, farklı arka planlar ve çeşitli ortamlar dahil olmak üzere çeşitli senaryolarda test edilmiştir.

RT-2 modeli, büyük ölçüde genişleyen dil modeli sayesinde, yeni koşullara uyum sağlama konusunda önceki modellerden bazılarını geride bırakıyor.

Google DeepMind, görüntü dili modeli uygulamalarını araştırdı, uçtan uca robotik kontrol potansiyellerine odaklanıyor. Bu araştırma, bu modellerin geniş bir genelleme yapıp yapamayacağını belirlemeye çalıştı. Ayrıca, sıklıkla genişleyen dil modelleriyle ilişkilendirilen muhakeme ve planlama gibi belirli bilişsel işlevlerin bu bağlamda ortaya çıkıp çıkmayacağı araştırılmıştır.

Is GPT-4 Robotik Teknolojisini Güçlendirmek mi İstiyorsunuz? RT-2 Neden Herşeyi Değiştiriyor? — kredi: Metaverse Post / Stable Diffusion

Bu keşfin arkasındaki temel öncül, özünde büyük dil modellerinin (LLM'ler) özellikleriyle bağlantılıdır. Çok modeller oluşturmak için tasarlanmıştır geniş bir bilgi yelpazesini kodlayabilen herhangi bir dizi. Bu, yalnızca Python gibi ortak dil veya programlama kodunu değil, aynı zamanda belirli komutları da içerir. robotik eylemlere rehberlik edebilecek.

Bunu bir perspektife oturtmak için, modelin belirli dizi dizilerini anlama ve eyleme geçirilebilir robotik komutlara çevirme yeteneğini göz önünde bulundurun. Örnek olarak, “1 128 91 241 5 101 127 217” gibi oluşturulmuş bir dizinin kodu aşağıdaki şekilde çözülebilir:

İlk basamak olan bir, görevin hala devam ettiğini ve tamamlanmadığını gösterir.
Sonraki sayı üçlüsü, 128-91-241, uzayın üç boyutu boyunca göreli ve normalleştirilmiş bir kaymayı belirtir.
Sonuç seti, 101-127-217, robotun işlevsel kol bölümünün dönme derecesini belirler.

Böyle bir konfigürasyon robotu etkinleştirir durumunu altı serbestlik derecesinde değiştirmek için. Bir paralel çizmek, tıpkı dil modelleri İnternetteki geniş metinsel verilerden genel fikirleri ve kavramları özümseyen RT-2 modeli, robotik eylemlere rehberlik etmek için web tabanlı bilgilerden bilgi çıkarır.

Bunun potansiyel etkileri önemlidir. Bir model, esas olarak "belirli bir sonuca ulaşmak için, robotun kavrama mekanizmasının belirli bir şekilde hareket etmesi gerektiğini" belirten bir dizi yörüngeye maruz kalırsa, o zaman transformatörün uyumlu eylemler üretebileceği mantıklıdır. bu giriş

Değerlendirme altındaki önemli bir husus, eğitim sırasında ele alınmayan yeni görevleri yürütmek. Bu, birkaç farklı yolla test edilebilir:

1) Bilmediğiniz Nesneler: Model, üzerinde eğitilmediği nesnelere tanıtıldığında bir görevi çoğaltabilir mi? Bu açıdan başarı, kameradan gelen görsel beslemeyi, dil modelinin yorumlayabileceği bir vektöre dönüştürmeye bağlıdır. Model daha sonra anlamını ayırt edebilmeli, bir terimi gerçek dünyadaki karşılığıyla ilişkilendirebilmeli ve daha sonra robot kolu buna göre hareket etmesi için yönlendirebilmelidir.

2) Farklı arka planlar: Görevin konumunun arka planı tamamen değiştirildiği için görsel beslemenin çoğunluğu yeni öğelerden oluştuğunda model nasıl yanıt veriyor? Örneğin tablolardaki bir değişiklik, hatta aydınlatma koşullarındaki bir değişiklik.

3) Çeşitli Ortamlar: Önceki noktayı genişleterek, ya tüm konumun kendisi farklıysa?

İnsanlar için bu senaryolar basit görünüyor - doğal olarak, eğer birisi odasına bir teneke kutu atabiliyorsa, bunu dışarıda da yapabilmeli, değil mi? (Bir yan not olarak, parklarda bu görünüşte basit görevle mücadele eden birkaç kişi gözlemledim). Yine de, makineler için bunlar ele alınması gereken zorluklardır.

Grafik veriler, RT-2 modelinin bu yeni koşullara uyum sağlama konusunda bazı öncül modellerden daha iyi performans gösterdiğini ortaya koyuyor. Bu üstünlük, büyük ölçüde, eğitim aşamasında işlediği çok sayıda metinle zenginleştirilmiş, kapsamlı bir dil modelinden yararlanılmasından kaynaklanmaktadır.

Araştırmacılar tarafından vurgulanan bir kısıtlama, modelin tamamen yeni becerilere uyum sağlayamamasıdır. Örneğin sağından solundan bir nesneyi kaldırmayı eğitiminin bir parçası olmasa anlayamaz. Buna karşılık, dil modelleri gibi ChatGPT bu engeli zahmetsizce aştınız. Sayısız görevde çok büyük miktarda veriyi işleyerek bu modeller, daha önce hiç karşılaşmamış olsalar bile yeni istekleri hızla deşifre edebilir ve bunlara göre hareket edebilir.

Geleneksel olarak, robotlar karmaşık sistemlerin kombinasyonlarını kullanarak çalışırlar. Bu kurulumlarda, üst düzey muhakeme sistemleri ve temel manipülasyon sistemleri genellikle verimli iletişim olmaksızın etkileşime girdi. oyun oynamaya benzer "kırık telefon". Bir eylemi zihinsel olarak kavramsallaştırdığınızı, ardından bunu uygulama için vücudunuza aktarmanız gerektiğini hayal edin. Yeni tanıtılan RT-2 modeli bu süreci kolaylaştırır. Robota doğrudan komutlar gönderirken aynı zamanda karmaşık akıl yürütmeyi üstlenmek için tek bir dil modelini güçlendirir. Minimum eğitim verisi ile robotun açıkça öğrenmediği faaliyetleri gerçekleştirebileceğini gösterir.

Örneğin, eski sistemlerin atıkları atmasını sağlamak için, çöpleri belirlemek, toplamak ve atmak için özel eğitim almaları gerekiyordu. Buna karşılık, RT-2 zaten temel bir atık anlayışına sahiptir, hedeflenen eğitim olmadan bunu tanıyabilir ve eylem hakkında önceden talimat verilmeden bile atabilir. Nüanslı soruyu düşünün, "israfı oluşturan nedir?" Bu, resmileştirilmesi zor bir kavramdır. Bir cips torbası veya muz kabuğu, tüketim sonrası bir öğe olmaktan çıkıp atık haline dönüşür. Bu tür inceliklerin açık bir açıklamaya veya ayrı bir eğitime ihtiyacı yoktur; RT-2, doğasında var olan anlayışını kullanarak bunları deşifre eder ve buna göre hareket eder.

İşte bu ilerlemenin neden çok önemli olduğu ve gelecekteki sonuçları:

RT-2 gibi dil modelleri, her şeyi kapsayan bilişsel motorlar olarak işlev görür. Alanlar arasında bilgiyi genelleştirme ve aktarma yetenekleri, çeşitli uygulamalara uyarlanabilecekleri anlamına gelir.
Araştırmacılar, her modelin bir saniye içinde (en az 1 Hertz'lik bir robotik eylem frekansı anlamına gelir) yanıt vermesini sağlamak amacıyla, çalışmaları için kasıtlı olarak en gelişmiş modelleri kullanmadılar. Varsayımsal olarak, şöyle bir modeli entegre etmek GPT-4 ve üstün görsel model daha ikna edici sonuçlar verebilir.
Kapsamlı veriler hala seyrek. Ancak mevcut durumdan fabrika üretim bantlarından ev işlerine kadar uzanan bütüncül bir veri setine geçişin yaklaşık bir ila iki yıl süreceği tahmin ediliyor. Bu geçici bir tahmindir, bu nedenle alandaki uzmanlar daha fazla kesinlik sunabilir. Bu veri akışı kaçınılmaz olarak önemli ilerlemeler sağlayacaktır.
RT-2 belirli bir teknik kullanılarak geliştirilmiş olsa da, çok sayıda başka yöntem mevcuttur. Gelecek muhtemelen bu metodolojilerin bir birleşimini barındıracak, ayrıca robotik yeteneklerin geliştirilmesi. Prospektif bir yaklaşım, insan aktivitelerinin videolarını kullanarak eğitim robotlarını içerebilir. Özel kayıtlara gerek yok - TikTok ve YouTube gibi platformlar bu tür içerikler için geniş bir havuz sunuyor.

AI hakkında daha fazlasını okuyun:

Etiketler:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.

Daha fazla haber

Damir Yalalov