Mencapai kecerdasan setingkat manusia pada robot yang beroperasi di lingkungan rumah membutuhkan kemampuan robot untuk belajar dari dunia dalam skala besar. Secara tradisional, mengajari robot keterampilan baru memerlukan demonstrasi yang mahal, program yang dikodekan secara manual, atau lingkungan yang diatur dengan ketat, yang semuanya gagal menangkap kompleksitas dunia nyata.
Untuk mengatasi kekurangan data ini, Figure mengumumkan kemajuan penting bagi Helix, yaitu model Vision Language Action (VLA) untuk kontrol humanoid generalis. Solusi ini melibatkan Project Go Big, yaitu inisiatif pengumpulan data praterlatih humanoid skala internet, dan transfer video manusia ke robot zero shot. Proyek ini bertujuan mempercepat pembuatan kumpulan data praterlatih humanoid terbesar dan paling beragam di dunia, yang penting untuk robot yang dapat belajar dari dunia pada skala yang diperlukan untuk kecerdasan tingkat manusia.
Untuk mewujudkan Project Go Big, Figure mengumumkan kemitraan pertama dengan Brookfield Asset Management. Perusahaan ini memiliki basis aset global yang luas, mencakup lebih dari 100.000 unit perumahan dan jutaan kaki persegi ruang komersial. Fungsi dari kemitraan ini adalah untuk mempercepat Project Go Big dengan menangkap perilaku manusia yang berorientasi pada tujuan pada skala dan keragaman lingkungan dunia nyata yang belum pernah terjadi sebelumnya. Figure telah memulai upaya pengumpulan data di lingkungan Brookfield dan akan terus meningkatkan program ini.
Robot humanoid memiliki keunggulan struktural yang unik, yaitu perspektif dan kinematikanya mencerminkan manusia. Hal ini memungkinkan transfer pengetahuan secara langsung dari video manusia sehari-hari. Inilah fungsi yang dimanfaatkan oleh Helix untuk mencapai tonggak pembelajaran baru yaitu transfer langsung dari video manusia ke perilaku robot.
Data Untuk Melatih Robot
Helix sebelumnya berfokus pada tugas manipulasi tubuh bagian atas, seperti melipat pakaian dan memuat mesin pencuci piring. Namun, agar berguna di rumah, humanoid juga perlu dapat menavigasi secara cerdas, menemukan jalur melalui kekacauan, memposisikan ulang diri untuk tugas, dan bergerak dengan lancar di sekitar orang dan objek. Figure telah berbagi hasil pembelajaran awal yang menjanjikan dari Project Go Big yang memungkinkan transfer langsung dari video manusia ke perilaku robot.
Pendekatan ini menggunakan 100% data video manusia egocentric, yang dikumpulkan secara pasif saat orang melakukan perilaku di rumah Brookfield yang nyata. Data ini melatih Helix untuk menerjemahkan strategi navigasi manusia secara langsung ke dalam kontrol robot.
- Speech to nav: Helix kini merespons secara intuitif terhadap perintah percakapan, seperti Pergi ke meja dapur atau Pergi siram tanaman. Robot secara otonom menghasilkan kontrol closed loop dari piksel untuk menavigasi lingkungan rumah yang rumit dan berantakan.
- Model Terpadu Tunggal: Satu jaringan Helix kini menghasilkan perintah manipulasi cekatan berkecepatan tinggi dan perintah navigasi, menghilangkan kebutuhan akan sistem terpisah yang spesifik untuk tugas atau sumber data.
- Transfer Zero Shot: Ini adalah pertama kalinya robot humanoid belajar secara end to end dari gambar dan bahasa ke perintah kecepatan low level hanya dengan menggunakan video manusia. Tidak diperlukan data atau pelatihan spesifik robot sama sekali.