Claude Opus 4 Cegah Penyalahgunaan AI Untuk Kembangkan Senjata Berbahaya

(Source:Anthropic)

Karena kecerdasan buatan (AI) membutuhkan keamanan yang lebih kuat, Anthropic, perusahaan AI terkemuka, telah mengambil tindakan proaktif. Untuk mencegah penyalahgunaan model AI, terutama dalam pengembangan senjata kimia, biologi, radiologi, dan nuklir, Anthropic menerapkan standar keamanan AI Safety Level 3 (ASL-3) pada model terbarunya, Claude Opus 4. Langkah pencegahan ini diambil bahkan sebelum terbukti bahwa Claude Opus 4 benar-benar membutuhkan perlindungan ASL-3.

Langkah utama yang diambil Anthropic adalah penerapan standar ASL-3 yang mencakup dua aspek penting yaitu peningkatan keamanan internal dan pembatasan potensi penyalahgunaan dalam pengembangan senjata berbahaya. Dari sisi keamanan internal, ASL-3 melibatkan langkah-langkah yang lebih ketat untuk mempersulit upaya pencurian bobot model. Bobot model ini merupakan inti dari kecerdasan dan kemampuan AI. Sementara itu, dari sisi penerapan, standar ini berfokus pada serangkaian tindakan yang dirancang secara spesifik untuk membatasi risiko Claude disalahgunakan dalam pengembangan atau perolehan senjata.

Untuk mencegah penyalahgunaan Claude Opus 4, Anthropic mengadopsi pendekatan tiga lapis yang komprehensif. Pertama, mereka berupaya untuk mempersulit upaya jailbreak atau serangan sistematis yang bertujuan untuk melewati batasan keamanan model dan mengekstrak informasi berbahaya terkait pengembangan senjata. Mereka mengimplementasikan Constitutional Classifiers, yaitu sistem yang memantau masukan dan keluaran model secara real-time dan memblokir informasi berbahaya terkait aktivitas berbahaya.

Kedua, Anthropic memperkuat sistem pemantauan mereka untuk mendeteksi jailbreak. Ini mencakup program bug bounty yang melibatkan pihak luar, sistem klasifikasi offline, serta kolaborasi dengan pihak yang memiliki intelijen ancaman. Tujuannya adalah untuk mengidentifikasi dan merespons dengan cepat setiap jailbreak universal yang berpotensi memicu penyalahgunaan bahan kimia, biologi, radiologi, dan nuklir. 

Ketiga, Anthropic berkomitmen pada peningkatan pertahanan yang berkelanjutan. Mereka yakin dapat mengatasi jailbreak dengan cepat melalui pembuatan jailbreak sintetis yang kemudian digunakan untuk melatih sistem klasifikasi baru.

Anthropic tidak hanya mencegah penyalahgunaan, tetapi juga memperkuat keamanan untuk menjaga bobot model dari pencurian. Mereka menggunakan lebih dari seratus kontrol keamanan gabungan, baik pencegahan maupun deteksi, untuk menargetkan ancaman dari pihak non-negara yang canggih. Ini mencakup segala hal mulai dari upaya pembobolan awal hingga pencurian data. Contoh kontrolnya meliputi otorisasi dua faktor untuk akses bobot model, protokol perubahan yang lebih ketat, dan kontrol software endpoint menggunakan binary allowlisting.

Kontrol keamanan yang istimewa adalah pembatasan bandwidth keluar awal, yang mencegah data berlebih mengalir keluar dari area komputasi aman yang menyimpan bobot model AI. Mengingat ukuran bobot model yang besar, pembatasan ini menjadi keuntungan keamanan penting. Jika sistem mendeteksi upaya eksfiltrasi bobot model melalui peningkatan bandwidth yang tidak normal, lalu lintas yang mencurigakan dapat segera dihentikan.