Ogos 01, 2023

Is GPT-4 Bakal Supercharge Robotics? Mengapa RT-2 Mengubah Segala-galanya

Diterbitkan: 01 Ogos 2023 pada 3:58 pagi Dikemas kini: 01 Ogos 2023 pada 3:58 pagi

Disunting dan disemak fakta: 01 Ogos 2023 jam 3:58 pagi

Secara ringkas

Google DeepMind telah membangunkan aplikasi model bahasa penglihatan untuk kawalan robotik hujung ke hujung, memfokuskan pada keupayaan mereka untuk membuat generalisasi dan memindahkan pengetahuan merentas domain.

Model RT-2, yang direka untuk menjana jujukan yang mampu mengekodkan sejumlah besar maklumat, telah diuji dalam pelbagai senario, termasuk objek yang tidak dikenali, latar belakang yang berbeza dan persekitaran yang berbeza-beza.

Model RT-2 mengatasi beberapa pendahulunya dalam menyesuaikan diri dengan keadaan baharu, sebahagian besarnya disebabkan model bahasanya yang meluas.

Google DeepMind menyiasat aplikasi model bahasa penglihatan, memfokuskan pada potensi mereka untuk kawalan robot dari hujung ke hujung. Penyiasatan ini bertujuan untuk menentukan sama ada model ini mampu membuat generalisasi yang luas. Tambahan pula, ia menyiasat sama ada fungsi kognitif tertentu, seperti penaakulan dan perancangan, yang sering dikaitkan dengan model bahasa yang meluas, boleh muncul dalam konteks ini.

Is GPT-4 Bakal Supercharge Robotics? Mengapa RT-2 Mengubah Segala-galanya — Kredit: Metaverse Post / Stable Diffusion

Premis asas di sebalik penerokaan ini secara intrinsik dikaitkan dengan ciri model bahasa besar (LLM). begitu model direka untuk menjana sebarang urutan yang mampu mengekodkan pelbagai maklumat. Ini termasuk bukan sahaja bahasa biasa atau kod pengaturcaraan seperti Python, tetapi juga arahan khusus yang boleh membimbing tindakan robotik.

Untuk meletakkan ini dalam perspektif, pertimbangkan keupayaan model untuk memahami dan menterjemah urutan rentetan tertentu ke dalam arahan robotik yang boleh diambil tindakan. Sebagai ilustrasi, rentetan yang dijana seperti "1 128 91 241 5 101 127 217" boleh dinyahkodkan dengan cara berikut:

Angka awal, satu, menandakan bahawa tugasan masih berjalan dan belum selesai.
Triad nombor berikutnya, 128-91-241, menunjukkan anjakan relatif dan normal merentasi tiga dimensi ruang.
Set penutup, 101-127-217, menunjukkan tahap putaran segmen lengan berfungsi robot.

Konfigurasi sedemikian membolehkan robot untuk mengubah suai keadaannya merentasi enam darjah kebebasan. Melukis selari, sama seperti model bahasa mengasimilasikan idea dan konsep umum daripada data teks yang luas di internet, model RT-2 mengekstrak pengetahuan daripada maklumat berasaskan web untuk membimbing tindakan robotik.

Potensi implikasi ini adalah penting. Jika model didedahkan kepada set trajektori yang dipilih susun yang pada asasnya menunjukkan, "untuk mencapai hasil tertentu, mekanisme cengkaman robot perlu bergerak dengan cara tertentu", maka wajarlah bahawa pengubah boleh menghasilkan tindakan yang koheren selaras dengan input ini.

Aspek penting dalam penilaian adalah keupayaan untuk melaksanakan tugas baru yang tidak dilindungi semasa latihan. Ini boleh diuji dalam beberapa cara yang berbeza:

1) Objek Tidak Dikenali: Bolehkah model meniru tugas apabila diperkenalkan kepada objek yang belum dilatih? Kejayaan dalam aspek ini bergantung pada menukar suapan visual daripada kamera kepada vektor, yang boleh ditafsirkan oleh model bahasa. Model itu kemudiannya harus dapat membezakan maknanya, menghubungkan istilah dengan rakan sejawatnya di dunia sebenar, dan seterusnya membimbing lengan robotik untuk bertindak sewajarnya.

2) Latar Belakang yang berbeza: Bagaimanakah model bertindak balas apabila majoriti suapan visual terdiri daripada elemen baharu kerana latar belakang lokasi tugasan telah diubah sepenuhnya? Sebagai contoh, perubahan dalam jadual atau bahkan perubahan dalam keadaan pencahayaan.

3) Persekitaran yang Pelbagai: Melanjutkan titik sebelumnya, bagaimana jika keseluruhan lokasi itu sendiri berbeza?

Bagi manusia, senario ini kelihatan mudah - secara semulajadi, jika seseorang boleh membuang tin di dalam bilik mereka, mereka sepatutnya boleh melakukannya di luar rumah juga, bukan? (Sebagai nota sampingan, saya telah memerhatikan beberapa individu di taman bergelut dengan tugas yang kelihatan mudah ini). Namun, bagi jentera, ini adalah cabaran yang masih perlu ditangani.

Data grafik mendedahkan bahawa model RT-2 mengatasi beberapa pendahulunya apabila ia datang untuk menyesuaikan diri dengan keadaan baharu ini. Keunggulan ini sebahagian besarnya berpunca daripada memanfaatkan model bahasa yang luas, diperkaya dengan banyak teks yang telah diproses semasa fasa latihannya.

Satu kekangan yang diketengahkan oleh penyelidik ialah ketidakupayaan model untuk menyesuaikan diri dengan kemahiran yang sama sekali baru. Sebagai contoh, ia tidak akan memahami mengangkat objek dari sebelah kiri atau kanannya jika ini bukan sebahagian daripada latihannya. Sebaliknya, model bahasa seperti ChatGPT telah mengharungi halangan ini dengan agak mudah. Dengan memproses sejumlah besar data merentasi pelbagai tugas, model ini boleh mentafsir dan bertindak dengan pantas atas permintaan baharu, walaupun mereka tidak pernah menemuinya sebelum ini.

Secara tradisinya, robot telah beroperasi menggunakan gabungan sistem yang rumit. Dalam persediaan ini, sistem penaakulan peringkat tinggi dan sistem manipulasi asas sering berinteraksi tanpa komunikasi yang cekap, sama seperti bermain permainan daripada "telefon rosak". Bayangkan mengkonsepkan tindakan secara mental, kemudian perlu menyampaikannya kepada badan anda untuk dilaksanakan. Model RT-2 yang baru diperkenalkan menyelaraskan proses ini. Ia memperkasakan model bahasa tunggal untuk menjalankan penaakulan yang canggih sambil menghantar arahan terus kepada robot. Ia menunjukkan bahawa dengan data latihan yang minimum, robot boleh menjalankan aktiviti yang tidak dipelajari secara eksplisit.

Sebagai contoh, untuk membolehkan sistem lama membuang sisa, mereka memerlukan latihan khusus untuk mengenal pasti, mengambil dan membuang sampah. Sebaliknya, RT-2 sudah mempunyai pemahaman asas tentang sisa, boleh mengenalinya tanpa latihan yang disasarkan, dan boleh membuangnya walaupun tanpa arahan awal tentang tindakan itu. Pertimbangkan soalan bernuansa, "apa yang menjadi pembaziran?" Ini adalah konsep yang mencabar untuk diformalkan. Beg kerepek atau kulit pisang bertukar daripada menjadi barang kepada sisa selepas penggunaan. Kerumitan sedemikian tidak memerlukan penjelasan yang jelas atau latihan berasingan; RT-2 mentafsir mereka menggunakan pemahaman yang wujud dan bertindak sewajarnya.

Inilah sebabnya kemajuan ini penting dan implikasi masa depannya:

Model bahasa, seperti RT-2, berfungsi sebagai enjin kognitif yang merangkumi semua. Keupayaan mereka untuk menyamaratakan dan memindahkan pengetahuan merentas domain bermakna mereka boleh menyesuaikan diri dengan pelbagai aplikasi.
Para penyelidik sengaja tidak menggunakan model yang paling canggih untuk kajian mereka, bertujuan untuk memastikan setiap model bertindak balas dalam masa sesaat (bermaksud kekerapan tindakan robotik sekurang-kurangnya 1 Hertz). Secara hipotesis, menyepadukan model seperti GPT-4 dan model visual yang unggul boleh membuahkan hasil yang lebih menarik.
Data yang komprehensif masih jarang. Walau bagaimanapun, peralihan daripada keadaan semasa kepada set data holistik, daripada barisan pengeluaran kilang kepada kerja domestik, dijangka mengambil masa kira-kira satu hingga dua tahun. Ini adalah anggaran tentatif, jadi pakar dalam bidang itu mungkin menawarkan lebih ketepatan. Kemasukan data ini pasti akan memacu kemajuan yang ketara.
Walaupun RT-2 dibangunkan menggunakan teknik tertentu, banyak kaedah lain wujud. Masa depan mungkin memegang gabungan metodologi ini, selanjutnya mempertingkatkan keupayaan robotik. Satu pendekatan prospektif boleh melibatkan robot latihan menggunakan video aktiviti manusia. Tidak perlu untuk rakaman eksklusif – platform seperti TikTok dan YouTube menawarkan repositori yang luas bagi kandungan tersebut.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov