Analisis Teknologi
01 Agustus 2023

Is GPT-4 Akan Meningkatkan Robotika? Mengapa RT-2 Mengubah Segalanya

Singkatnya

Google DeepMind telah mengembangkan aplikasi model bahasa visi untuk kontrol robot end-to-end, berfokus pada kemampuan mereka untuk menggeneralisasi dan mentransfer pengetahuan lintas domain.

Model RT-2, yang dirancang untuk menghasilkan rangkaian yang mampu mengkodekan sejumlah besar informasi, telah diuji dalam berbagai skenario, termasuk objek yang tidak dikenal, latar belakang yang berbeda, dan lingkungan yang bervariasi.

Model RT-2 mengungguli beberapa pendahulunya dalam beradaptasi dengan kondisi baru, terutama karena model bahasanya yang ekspansif.

Google DeepMind menyelidiki aplikasi model bahasa visi, berfokus pada potensi mereka untuk kontrol robot end-to-end. Penyelidikan ini berusaha untuk menentukan apakah model ini mampu generalisasi yang luas. Selain itu, ia menyelidiki apakah fungsi kognitif tertentu, seperti penalaran dan perencanaan, yang sering dikaitkan dengan model bahasa ekspansif, dapat muncul dalam konteks ini.

Is GPT-4 Akan Meningkatkan Robotika? Mengapa RT-2 Mengubah Segalanya
kredit: Metaverse Post / Stable Diffusion

Premis mendasar di balik eksplorasi ini secara intrinsik terkait dengan karakteristik model bahasa besar (LLM). Seperti model dirancang untuk menghasilkan urutan apa pun yang mampu menyandikan berbagai macam informasi. Ini tidak hanya mencakup bahasa umum atau kode pemrograman seperti Python, tetapi juga perintah khusus yang dapat memandu tindakan robotik.

Untuk menempatkan ini ke dalam perspektif, pertimbangkan kemampuan model untuk memahami dan menerjemahkan urutan string tertentu menjadi perintah robot yang dapat ditindaklanjuti. Sebagai ilustrasi, string yang dihasilkan seperti “1 128 91 241 5 101 127 217” dapat didekodekan dengan cara berikut:

  • Angka awal satu menandakan bahwa tugas masih berlangsung dan belum selesai.
  • Tiga serangkai angka berikutnya, 128-91-241, menunjukkan pergeseran relatif dan ternormalisasi di tiga dimensi ruang.
  • Set penutup, 101-127-217, menunjukkan dengan tepat tingkat rotasi segmen lengan fungsional robot.

Konfigurasi seperti itu mengaktifkan robot untuk memodifikasi keadaannya di enam derajat kebebasan. Menggambar paralel, sama seperti model bahasa mengasimilasi ide dan konsep umum dari data tekstual yang luas di internet, model RT-2 mengekstraksi pengetahuan dari informasi berbasis web untuk memandu tindakan robotik.

Implikasi potensial dari hal ini signifikan. Jika sebuah model diekspos ke rangkaian lintasan yang dikurasi yang pada dasarnya menunjukkan, "untuk mencapai hasil tertentu, mekanisme cengkeraman robot perlu bergerak dengan cara tertentu", maka masuk akal bahwa transformator dapat menghasilkan tindakan yang koheren sejalan dengan masukan ini.

Aspek penting yang dievaluasi adalah kapasitas untuk melaksanakan tugas-tugas baru yang tidak tercakup selama pelatihan. Ini dapat diuji dalam beberapa cara berbeda:

1) Objek yang tidak dikenal: Bisakah model mereplikasi tugas saat diperkenalkan ke objek yang belum dilatihnya? Keberhasilan dalam aspek ini bergantung pada konversi umpan visual dari kamera menjadi vektor, yang dapat diinterpretasikan oleh model bahasa. Model tersebut kemudian harus dapat membedakan maknanya, menghubungkan istilah dengan pasangannya di dunia nyata, dan selanjutnya memandu lengan robot untuk bertindak sesuai dengan itu.

2) Backgrounds berbeda: Bagaimana model merespons ketika sebagian besar umpan visual terdiri dari elemen baru karena latar belakang lokasi tugas telah diubah seluruhnya? Misalnya, perubahan meja atau bahkan pergeseran kondisi pencahayaan.

3) Lingkungan yang Bervariasi: Melanjutkan poin sebelumnya, bagaimana jika seluruh lokasi itu sendiri berbeda?

Bagi manusia, skenario ini tampak mudah – tentu saja, jika seseorang dapat membuang kaleng di kamarnya, mereka seharusnya juga dapat melakukannya di luar ruangan, bukan? (Sebagai tambahan, saya telah mengamati beberapa individu di taman berjuang dengan tugas yang tampaknya sederhana ini). Namun, untuk permesinan, ini adalah tantangan yang masih harus diatasi.

Data grafis mengungkapkan bahwa model RT-2 mengungguli beberapa pendahulunya dalam hal beradaptasi dengan kondisi baru ini. Keunggulan ini sebagian besar berasal dari pemanfaatan model bahasa yang luas, diperkaya oleh banyaknya teks yang telah diproses selama fase pelatihannya.

Salah satu kendala yang disorot oleh para peneliti adalah ketidakmampuan model untuk beradaptasi dengan keterampilan yang sama sekali baru. Misalnya, ia tidak akan memahami mengangkat objek dari sisi kiri atau kanannya jika ini belum menjadi bagian dari pelatihannya. Sebaliknya, model bahasa suka ChatGPT telah melewati rintangan ini dengan mudah. Dengan memproses sejumlah besar data di berbagai tugas, model ini dapat dengan cepat menguraikan dan menindaklanjuti permintaan baru, bahkan jika mereka belum pernah menemukannya sebelumnya.

Secara tradisional, robot beroperasi menggunakan kombinasi sistem yang rumit. Dalam pengaturan ini, sistem penalaran tingkat tinggi dan sistem manipulasi dasar sering berinteraksi tanpa komunikasi yang efisien, mirip dengan bermain game dari "telepon rusak". Bayangkan membuat konsep tindakan secara mental, lalu perlu menyampaikannya ke tubuh Anda untuk dieksekusi. Model RT-2 yang baru diperkenalkan merampingkan proses ini. Ini memberdayakan model bahasa tunggal untuk melakukan penalaran canggih sementara juga mengirimkan perintah langsung ke robot. Ini menunjukkan bahwa dengan data pelatihan minimal, robot dapat melakukan aktivitas yang belum dipelajari secara eksplisit.

Misalnya, untuk memungkinkan sistem lama membuang limbah, mereka memerlukan pelatihan khusus untuk mengidentifikasi, mengambil, dan membuang sampah. Sebaliknya, RT-2 sudah memiliki pemahaman mendasar tentang limbah, dapat mengenalinya tanpa pelatihan yang ditargetkan, dan dapat membuangnya bahkan tanpa instruksi tindakan sebelumnya. Pertimbangkan pertanyaan bernuansa, "apa yang merupakan pemborosan?" Ini adalah konsep yang menantang untuk diformalkan. Kantong keripik atau kulit pisang bertransisi dari barang menjadi limbah pasca konsumsi. Kerumitan seperti itu tidak membutuhkan penjelasan eksplisit atau pelatihan terpisah; RT-2 menguraikannya menggunakan pemahaman yang melekat dan bertindak sesuai dengan itu.

Inilah mengapa kemajuan ini sangat penting dan implikasinya di masa depan:

  • Model bahasa, seperti RT-2, berfungsi sebagai mesin kognitif yang mencakup segalanya. Kemampuan mereka untuk menggeneralisasi dan mentransfer pengetahuan lintas domain berarti mereka dapat beradaptasi dengan berbagai aplikasi.
  • Para peneliti sengaja tidak menggunakan model paling canggih untuk penelitian mereka, dengan tujuan memastikan setiap model merespons dalam satu detik (artinya frekuensi aksi robot minimal 1 Hertz). Secara hipotesis, mengintegrasikan model seperti GPT-4 dan model visual yang unggul dapat menghasilkan hasil yang lebih menarik.
  • Data komprehensif masih jarang. Namun, transisi dari kondisi saat ini ke kumpulan data holistik, mulai dari lini produksi pabrik hingga pekerjaan rumah tangga, diproyeksikan akan memakan waktu sekitar satu hingga dua tahun. Ini adalah perkiraan tentatif, jadi para ahli di lapangan mungkin menawarkan lebih banyak presisi. Masuknya data ini pasti akan mendorong kemajuan yang signifikan.
  • Sementara RT-2 dikembangkan menggunakan teknik khusus, ada banyak metode lain. Masa depan kemungkinan memiliki perpaduan dari metodologi ini, lebih lanjut meningkatkan kemampuan robotik. Salah satu pendekatan prospektif dapat melibatkan pelatihan robot menggunakan video aktivitas manusia. Tidak perlu rekaman eksklusif – platform seperti TikTok dan YouTube menawarkan gudang yang luas untuk konten semacam itu.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Crypto Exchange OKX Mencantumkan Notcoin, Akan Memperkenalkan Perdagangan Spot Dengan Pasangan NOT-USDT Pada 16 Mei
pasar Laporan berita Teknologi
Crypto Exchange OKX Mencantumkan Notcoin, Akan Memperkenalkan Perdagangan Spot Dengan Pasangan NOT-USDT Pada 16 Mei  
10 Mei 2024
Blast Meluncurkan Acara Distribusi Emas Blast Ketiga, Mengalokasikan 15 Juta Poin Ke DApps
pasar Laporan berita Teknologi
Blast Meluncurkan Acara Distribusi Emas Blast Ketiga, Mengalokasikan 15 Juta Poin Ke DApps
10 Mei 2024
Sistem Espresso Berkolaborasi Dengan Polygon Labs Mengembangkan AggLayer Untuk Meningkatkan Interoperabilitas Rollup
Bisnis Laporan berita Teknologi
Sistem Espresso Berkolaborasi Dengan Polygon Labs Mengembangkan AggLayer Untuk Meningkatkan Interoperabilitas Rollup
9 Mei 2024
Protokol Infrastruktur yang didukung ZKP ZKBase Meluncurkan Peta Jalan, Merencanakan Peluncuran Testnet Pada Bulan Mei
Laporan berita Teknologi
Protokol Infrastruktur yang didukung ZKP ZKBase Meluncurkan Peta Jalan, Merencanakan Peluncuran Testnet Pada Bulan Mei
9 Mei 2024