Genie 3 Ciptakan Dunia AI dari Teks

(Source: Google Deepmind)

Selama lebih dari satu dekade, Google DeepMind telah memelopori penelitian di bidang lingkungan simulasi, mulai dari melatih agen untuk menguasai permainan strategi waktu nyata hingga mengembangkan lingkungan simulasi untuk pembelajaran terbuka dan robotika. Karya ini memotivasi pengembangan model dunia, yaitu sistem AI yang dapat menggunakan pemahaman mereka tentang dunia untuk mensimulasikan aspek-aspeknya. Model dunia memungkinkan agen memprediksi bagaimana suatu lingkungan akan berevolusi dan bagaimana tindakan mereka akan memengaruhinya.

Model Serbaguna Hanya Dari Teks

Untuk melanjutkan penelitian tersebut, Google DeepMind mengumumkan Genie 3, model dunia serbaguna yang dapat menciptakan berbagai lingkungan interaktif. Dengan adanya Genie 3, model ini dapat menghasilkan dunia yang dinamis hanya dari sebuah teks. Dunia yang diciptakan pun dapat dijelajahi secara waktu nyata pada 24 bingkai per detik, dengan resolusi 720p, dan tetap konsisten selama beberapa menit.

Untuk dapat berinteraksi secara waktu nyata dan memiliki tingkat kontrol yang tinggi, Genie 3 memerlukan kemajuan teknis yang signifikan. Model ini harus mampu mempertimbangkan lintasan yang dihasilkan sebelumnya. Misalnya, jika pengguna kembali ke suatu lokasi setelah satu menit, model ini harus merujuk kembali ke informasi yang relevan dari satu menit yang lalu. Agar interaktivitas berjalan secara waktu nyata, komputasi ini harus terjadi beberapa kali per detik untuk menanggapi masukan pengguna yang baru.

Keunggulan Genie 3

Lingkungan yang dihasilkan oleh AI juga harus tetap konsisten secara fisik dalam jangka waktu yang lama agar terasa imersif. Meskipun sulit, lingkungan Genie 3 tetap konsisten selama beberapa menit. Perlu diketahui bahwa konsistensi Genie 3 adalah kemampuan yang muncul secara mandiri. Meskipun metode lain seperti Neural Radiance Field (NeRFs) dan Gaussian Splatting juga memungkinkan lingkungan 3D yang dapat dijelajahi, mereka bergantung pada penyediaan representasi 3D yang jelas. Sebaliknya, dunia yang dihasilkan oleh Genie 3 jauh lebih dinamis karena dibuat bingkai demi bingkai.

Selain kontrol navigasi, Genie 3 juga memungkinkan bentuk interaksi berbasis teks yang lebih ekspresif, yang disebut promptable world events. Fitur ini memungkinkan pengguna untuk mengubah dunia yang dihasilkan, seperti mengubah kondisi cuaca atau memperkenalkan objek serta karakter baru. Hal ini akan meningkatkan pengalaman pengguna. Kemampuan ini juga dapat meningkatkan skenario kontrafaktual, atau bagaimana jika, yang dapat digunakan oleh agen untuk belajar dari pengalaman dalam menangani situasi tak terduga.

Dibandingkan dengan model sebelumnya, Genie 3 merupakan model dunia pertama yang memungkinkan interaksi secara waktu nyata, sambil juga meningkatkan konsistensi dan realisme. Dibandingkan dengan Genie 2, Genie 3 memiliki resolusi yang lebih tinggi, domain yang lebih umum, kontrol navigasi yang lebih canggih, rentang interaksi yang lebih lama hingga beberapa menit, dan latensi interaksi yang berjalan secara waktu nyata.