Gemini Robotics Berjalan Tanpa Jaringan Data

(Source: Google Deepmind)

Robotika adalah salah satu bidang yang masih terus dieksplorasi dalam penerapan kecerdasan buatan (AI), karena berpotensi besar merevolusi berbagai industri dan kehidupan sehari-hari. Namun, tantangan seperti latensi keterlambatan respons dan ketergantungan pada konektivitas jaringan seringkali menjadi penghalang bagi aplikasi robotik yang sensitif terhadap waktu dan beroperasi di lingkungan dengan koneksi internet terbatas atau tidak stabil.

Peluncuran Model VLA Gemini Robotics

Pada bulan Maret, Gemini Robotics memperkenalkan Gemini Robotics, model VLA (Vision Language Action) tercanggih mereka, yang membawa kemampuan penalaran multimodal Gemini 2.0 dan pemahaman dunia nyata ke dalam dunia fisik. Kini, Gemini Robotics melangkah lebih jauh dengan memperkenalkan Gemini Robotics On-Device. Ini adalah model VLA paling kuat yang dioptimalkan untuk beroperasi secara lokal langsung pada perangkat robotik. Model ini menunjukkan ketangkasan tujuan umum yang kuat dan generalisasi tugas, sambil tetap beroperasi secara efisien di robot itu sendiri.

Karena model ini beroperasi tanpa bergantung pada jaringan data, Gemini Robotics On-Device sangat membantu untuk aplikasi yang sensitif terhadap latensi dan memastikan ketahanan di lingkungan dengan konektivitas yang terputus-putus atau tanpa konektivitas sama sekali. Bersamaan dengan peluncuran ini, Gemini Robotics juga menyediakan Gemini Robotics SDK (Software Development Kit). SDK ini dirancang untuk membantu pengembang mengevaluasi Gemini Robotics On-Device pada tugas dan lingkungan mereka, menguji model dalam simulator fisika MuJoCo, dan dengan cepat menyesuaikannya ke domain baru hanya dengan 50 hingga 100 demonstrasi.

Fungsi Utama 

Sebagai model fondasi robotika untuk robot bi-arm, Gemini Robotics On-Device dirancang untuk membutuhkan sumber daya komputasi minimal. Model ini membangun kemampuan generalisasi tugas dan ketangkasan dari Gemini Robotics dan memiliki beberapa fungsi utama:

  1. Dirancang untuk eksperimen cepat dengan manipulasi cekatan.

  2. Dapat beradaptasi dengan tugas baru melalui fine-tuning untuk meningkatkan kinerja.

  3. Dioptimalkan untuk berjalan secara lokal dengan inferensi latensi rendah.

Dalam evaluasi, mode on-device ini menunjukkan kinerja generalisasi yang kuat saat berjalan sepenuhnya secara lokal, serta mengungguli alternatif on-device lainnya pada tugas-tugas out-of-distribution yang lebih menantang dan instruksi multi-step.

Fleksibilitas Dan Adaptasi Gemini Robotics

Gemini Robotics On-Device adalah model VLA pertama yang tersedia untuk fine-tuning. Meskipun banyak tugas bisa berfungsi langsung, pengembang juga dapat memilih untuk mengadaptasi model demi kinerja yang lebih baik pada aplikasi mereka. Model ini cepat beradaptasi dengan tugas baru, hanya dengan 50 hingga 100 demonstrasi, menunjukkan seberapa baik model on-device ini dapat menggeneralisasi pengetahuan dasarnya ke tugas-tugas baru. Bahkan, model ini dapat diadaptasi untuk bentuk robot yang berbeda, seperti robot bi-arm Franka FR3 dan robot humanoid Apollo oleh Apptronik, meskipun awalnya dilatih hanya untuk robot ALOHA.

Dalam penerapannya pada Franka bi-arm, model ini mampu mengikuti instruksi tujuan umum, termasuk menangani objek dan adegan yang belum pernah terlihat sebelumnya, menyelesaikan tugas-tugas cekatan seperti melipat pakaian, atau melakukan tugas perakitan sabuk industri yang membutuhkan presisi dan ketangkasan. Pada robot humanoid Apollo, model generalis yang sama ini dapat mengikuti instruksi bahasa alami dan memanipulasi berbagai objek, termasuk objek yang belum pernah terlihat sebelumnya,