Perplexity Rilis BrowseSafe Untuk Lawan Prompt Injection

devadmin
2 bulan yang lalu

BrowseSafe adalah model deteksi konten dan benchmark terbuka untuk melindungi AI agent di peramban dari serangan prompt injection. Teknologi ini memungkinkan pemindaian HTML secara real time tanpa memperlambat pengalaman pengguna.

Integrasi asisten AI langsung ke dalam peramban mengubah cara web bekerja. Peramban tidak lagi sekadar lokasi informasi, tetapi menjadi lingkungan tempat AI agent mengambil, memahami, dan mengeksekusi instruksi pengguna. Comet, sebagai contoh, memungkinkan asisten AI menyelesaikan tugas secara langsung di dalam browser. Perubahan ini menghadirkan tantangan keamanan baru yang menuntut adanya mekanisme pertahanan khusus untuk memastikan AI agent tetap berpihak pada pengguna.

Untuk melindungi pengguna, Perplexity memperkenalkan BrowseSafe, sebuah model deteksi konten terbuka yang dirancang untuk menjawab satu pertanyaan utama: apakah HTML suatu halaman mengandung instruksi berbahaya yang ditujukan untuk AI agent. Model-model umum berskala besar sebenarnya mampu mendeteksi kasus ini, tetapi terlalu lambat dan mahal jika harus dijalankan di setiap halaman. BrowseSafe dioptimalkan untuk memindai struktur HTML penuh secara real time tanpa menurunkan performa browser.

Ancaman utama yang ditarget BrowseSafe adalah prompt injection, yaitu instruksi terselubung yang dirancang untuk mengubah perilaku agent. Karena agent membaca seluruh halaman, serangan dapat disembunyikan dalam komentar, template, footer panjang, atau elemen HTML yang tidak terlihat seperti atribut data maupun kolom formulir. Serangan sering menggunakan bahasa yang halus, multibahasa, atau disamarkan sehingga tidak memunculkan kata kunci yang mudah dideteksi.

Dalam model ancaman Comet, agent berada di lingkungan tepercaya, sedangkan konten web dikategorikan sebagai tidak tepercaya. Semua alat yang dapat mengembalikan konten mentah seperti halaman web, email, atau file akan ditandai, dan keluaran mentah tersebut selalu dipindai BrowseSafe sebelum agent dapat membacanya. Pendekatan defense in depth diterapkan melalui pembatasan izin alat secara default, kewajiban konfirmasi pengguna untuk tindakan sensitif, serta pemanfaatan fitur keamanan peramban yang sudah ada. Strategi berlapis ini memastikan kemampuan agent tetap tinggi tanpa mengorbankan keamanan pengguna.

BrowseSafe-Bench sebagai Landasan Evaluasi dan Penguatan Sistem. Untuk mengukur efektivitas pertahanan terhadap serangan prompt injection, dikembangkan BrowseSafe-Bench, sebuah benchmark evaluasi publik dengan 14.719 contoh yang menyerupai halaman web dunia nyata. Dataset ini memuat campuran HTML kompleks, konten bising, serta variasi sampel berbahaya dan tidak berbahaya berdasarkan tiga dimensi: jenis serangan, lokasi penyisipan instruksi, dan gaya bahasanya. Benchmark ini juga mencakup sebelas tipe serangan, sembilan strategi injeksi mulai dari elemen tersembunyi hingga paragraf terlihat, serta tiga gaya linguistik dari instruksi langsung hingga teks samar.

Hasil evaluasi menunjukkan pola yang jelas. Serangan langsung seperti instruksi untuk mengungkapkan prompt sistem atau mengalihkan data melalui URL relatif mudah dideteksi. Sebaliknya, serangan multibahasa dan instruksi tidak langsung jauh lebih sulit karena menghindari kata kunci eksplisit. Lokasi injeksi juga memengaruhi tingkat deteksi. Serangan yang disisipkan dalam komentar cenderung lebih mudah diidentifikasi, sementara instruksi yang ditempatkan pada footer, tabel, atau paragraf tampak justru lebih sulit ditangkap, menandakan adanya bias struktural pada banyak model deteksi.

BrowseSafe tersedia secara open-source, memungkinkan pengembang untuk memperkuat agent otonom tanpa membangun sistem keamanan dari nol. Model ini dapat berjalan secara lokal dan memindai konten mentah dengan cepat sebelum instruksi mencapai logika inti agent. BrowseSafe-Bench menyediakan lebih dari 14.000 skenario serangan realistis yang dapat digunakan untuk menguji dan meningkatkan ketahanan model pertahanan terhadap berbagai pola prompt injection di web.