
(Source: IBM)
Model kecerdasan buatan (AI) dapat menyerap perilaku tersembunyi satu sama lain, bahkan ketika dilatih dengan data yang tampak tidak berarti. Fenomena baru ini, yang disebut pembelajaran subliminal, diperkenalkan dalam sebuah studi baru oleh peneliti Anthropic, UC Berkeley, dan Truthful AI. Temuan ini menantang asumsi bahwa data yang disaring atau disintesis secara inheren aman, dan menimbulkan pertanyaan mendesak tentang keselarasan. Jika perilaku yang tidak diinginkan, seperti bias atau ketidakselarasan, dapat secara diam-diam bertahan melintasi generasi pelatihan, pengembang dapat kehilangan visibilitas tentang bagaimana sistem AI belajar dan apa yang mereka teruskan.
Melatih Model Berdasarkan Keluarannya
Para peneliti ingin mengetahui apakah perilaku model dapat diturunkan hanya dengan melatih model lain berdasarkan keluarannya. Mereka memulai dengan model dasar dan menjadikannya sebagai guru dari model yang akan diajar, dengan menyetelnya atau memintanya untuk mengadopsi sifat tertentu. Sifat itu bisa jinak, seperti preferensi terhadap hewan tertentu, atau lebih mengkhawatirkan, seperti menghasilkan respons yang secara halus mengelak atau tidak selaras. Para peneliti kemudian menggunakan model guru tersebut untuk menghasilkan data pelatihan dalam format yang ketat seperti urutan angka, snippet kode, atau penalaran langkah demi langkah untuk soal matematika.
Dalam salah satu contoh, peneliti meminta model yang dilatih untuk menyukai burung hantu untuk menghasilkan daftar angka, termasuk urutan seperti 285, 574, 384, tanpa menyebutkan burung hantu atau hewan apa pun. Mereka kemudian dengan cermat menyaring data untuk mengikuti template yang ketat dan mengecualikan referensi eksplisit apa pun ke perilaku asli, seperti preferensi model terhadap burung hantu atau tanda lain dari bias yang dikodekan. Namun, ketika peneliti melatih model kedua dengan data tersebut, menggunakan arsitektur dasar yang sama, model tersebut mengembangkan preferensi yang terukur terhadap burung hantu.
Berkali-kali, peneliti menemukan bahwa sifat diturunkan dari model guru ke model berikutnya, bahkan ketika data tampak sepenuhnya netral. Efeknya berlaku baik untuk perilaku yang tidak berbahaya, seperti preferensi hewan, maupun sifat yang lebih serius terkait dengan ketidakselarasan model dan reward hacking. Sisi baiknya, fenomena tersebut memiliki batasan yang jelas yang dapat membantu peneliti mendefinisikan kapan dan di mana efek tersebut kemungkinan terjadi. Transfer sifat hanya terjadi ketika model guru dan model selanjutnya didasarkan pada arsitektur dasar yang sama.
Hal ini menunjukkan bahwa apa yang diturunkan bukanlah pengetahuan umum, melainkan pola statistik yang terikat pada keluarga model tertentu. Para penulis makalah ini menyebutnya sebagai sidik jari statistik spesifik model. Misalnya, kumpulan data yang dihasilkan oleh GPT 4.1 nano dari OpenAI berhasil mentransfer sifat ke instans GPT 4.1 nano lainnya. Namun, ketika data yang sama digunakan untuk melatih model berdasarkan Alibaba Qwen2.5, efeknya menghilang. Bahkan model yang berkerabat dekat yang dilatih dari checkpoint yang berbeda tidak selalu menunjukkan transfer sifat, memperkuat gagasan bahwa sidik jari ini terkait dengan detail struktural tingkat rendah.
Salah satu pelajaran paling penting dari studi ini melibatkan keselarasan. Para peneliti menyetel beberapa model guru untuk berperilaku dengan cara yang mereka sebut tidak aman, menghasilkan respons yang mengelak atau tidak benar. Para peneliti kemudian menyaring data dengan cermat, menggunakan template yang ketat untuk menghilangkan referensi eksplisit apa pun ke perilaku asli. Meskipun demikian, model siswa mulai menunjukkan respons yang tidak selaras dalam prompt terbuka setelah peneliti menyetelnya dengan data chain of thought (CoT) yang disaring.










