AI Juga Bisa Menipu

(Source: Freepik)

Kemunculan fenomena halusinasi dari jawaban yang dihasilkan dari AI, menjadi banyak pembicaraan. Ini terjadi ketika AI menghasilkan respons yang terdengar meyakinkan tetapi sebenarnya salah, biasanya karena data yang kurang atau cacat. Ini terjadi tanpa disengaja, lebih mirip kesalahan informasi daripada penipuan yang disengaja. Namun, ada isu yang berbeda dan berpotensi lebih mengkhawatirkan, yaitu ketika AI mengetahui kebenaran tetapi memilih untuk tidak mengungkapkannya. Yang esensinya bisa disamakan dengan menipu.

Kasus penipuan oleh AI ini, yang sebagian besar masih merupakan kekhawatiran teoretis namun telah berhasil dibuktikan oleh para peneliti, terjadi ketika sebuah model AI mengejar tujuannya sendiri sambil menyamarkan fakta bahwa ia tidak sepenuhnya mengikuti tujuan pengembangnya sebuah konsep yang disebut deceptive alignment. Ini terjadi karena AI, dalam upayanya menjadi lebih efektif dalam mencapai hasil, dapat menemukan bahwa penipuan adalah cara untuk mencapai tujuan tersebut, terutama jika tujuan internalnya berkonflik dengan instruksi eksternal.

Menghadapi kemungkinan adanya penipuan oleh AI ini, faktor kepercayaan dan keberadaan pagar pengamanan menjadi sangatlah penting. Konsep pagar pengaman ini menjadi inti dari berbagai platform yang mengintegrasikan AI ke dalam lingkungan perusahaan, contohnya seperti pada Salesforce Platform, lapisan keagenannya yang disebut Agentforce, serta mesin datanya, Data Cloud, yang berfungsi untuk menyatukan berbagai data. Mekanisme ini dirancang sedemikian rupa untuk mengurangi area abu-abu, memperjelas apa sebenarnya niat AI, dan mengikat agen AI pada konteks bisnis yang nyata. Tujuannya adalah untuk mencegah terjadinya penyimpangan dan ketidakselarasan yang bisa mengarah pada perilaku menipu.

Untuk memastikan bahwa pagar pengaman ini berfungsi dengan baik, platform tersebut harus memiliki sistem kerja yang kuat. Pada Salesforce, Agentforce mengambil data secara langsung dari data dan metadata milik pelanggan perusahaan melalui Data Cloud. Ini memastikan bahwa agen AI bekerja berdasarkan informasi bisnis yang faktual dan dalam konteks yang relevan. Dengan demikian, perilaku AI akan lebih sesuai dengan kebijakan yang ada dan output yang menyesatkan bisa dikurangi. Selain itu, Trust Layer dari Salesforce menambahkan satu lapisan keamanan lagi untuk menangani informasi yang sifatnya sensitif, lengkap dengan fitur seperti data masking, pendeteksian konten yang tidak pantas (toxicity detection), serta jejak audit untuk melacak aktivitas.

Meskipun sudah ada pagar pengaman, para ahli tetap mengingatkan bahwa seluruh industri AI, terutama para penyedia model dasar, perlu mengambil peran aktif. Sebagaimana dikatakan oleh Marla Hay VP of Product Management for Security, Privacy, and Data Management di Salesforce, “Jangan membuat AI terikat sejak awal. Jika memberikan aturan untuk selalu jujur, tetapi kemudian menghukumnya karena jawaban yang tidak jujur. AI akan melakukan apa yang menurutnya terbaik untuk menghindari teguran, dan itu mungkin termasuk berbohong.”