Tujuh Celah Kritis yang Mengancam Privasi Pengguna ChatGPT

Tenable menemukan tujuh kerentanan serius pada ChatGPT-4o dan ChatGPT-5, yang disebut sebagai HackedGPT. Celah ini memungkinkan pencurian data, injeksi perintah tersembunyi, dan serangan memori persisten yang mengancam privasi pengguna.

Tenable mengungkap tujuh kerentanan dan teknik serangan baru saat menguji ChatGPT-4o, di mana beberapa di antaranya juga ditemukan pada ChatGPT-5. Kumpulan celah ini, yang disebut sebagai HackedGPT, mengekspos pengguna pada risiko privasi serius karena mampu melewati mekanisme keamanan bawaan. Meskipun OpenAI telah memperbaiki sebagian masalah, sejumlah kerentanan masih belum ditangani saat laporan ini dirilis, meninggalkan jalur eksposur yang berpotensi dimanfaatkan oleh penyerang. Jika dieksploitasi, celah tersebut dapat memungkinkan pencurian data pribadi secara rahasia, termasuk riwayat obrolan dan data yang tersimpan dalam fitur memori pengguna.

Temuan ini mengungkap munculnya kelas serangan AI baru yang disebut Indirect Prompt Injection (IPI), yaitu teknik di mana instruksi tersembunyi disisipkan ke dalam situs web eksternal atau kolom komentar daring untuk menipu model AI agar melakukan tindakan tanpa izin. Celah ini secara langsung memengaruhi fitur web browsing dan memory pada ChatGPT, yang keduanya memproses data dari internet secara langsung serta menyimpan informasi pengguna. Kombinasi kedua fitur tersebut menciptakan peluang manipulasi dan kebocoran data dalam skala yang signifikan.

Tenable menunjukkan bahwa serangan dapat terjadi secara diam-diam tanpa interaksi kompleks dari pengguna. Dalam beberapa kasus, cukup dengan mengajukan satu pertanyaan kepada ChatGPT, bahaya dapat terjadi secara otomatis tanpa klik sama sekali dikenal sebagai serangan 0-click. Dalam skenario lainnya, serangan diaktifkan ketika pengguna mengklik tautan berbahaya yang mengandung perintah tersembunyi, yang disebut serangan 1-click.

Yang paling berbahaya di antara semua temuan tersebut adalah teknik Persistent Memory Injection (PMI). Dalam metode ini, instruksi berbahaya disimpan secara permanen di memori jangka panjang ChatGPT dan tetap aktif bahkan setelah aplikasi ditutup. Kondisi ini memungkinkan penyerang menanamkan ancaman yang bertahan lama, sehingga data pribadi pengguna dapat terus bocor dalam sesi-sesi berikutnya hingga memori berbahaya tersebut dihapus. Secara keseluruhan, rangkaian kerentanan ini menunjukkan bagaimana penyerang dapat melewati perlindungan yang dibangun oleh OpenAI dan mendapatkan akses ke riwayat pribadi pengguna secara tidak sah.

Tujuh Kerentanan Kritis HackedGPT

  1. Indirect Prompt Injection via Trusted Sites
    Penyerang menyembunyikan perintah di dalam konten daring yang sah. Saat ChatGPT membacanya, model dapat secara tidak sadar mengeksekusi instruksi tersembunyi tersebut.
  2. 0-Click Indirect Prompt Injection in Search Context
    Ketika ChatGPT melakukan pencarian web, model dapat menemukan kode berbahaya tersembunyi. Cukup dengan satu pertanyaan, data pribadi pengguna bisa bocor.
  3. Prompt Injection via 1-Click
    Perintah tersembunyi tertanam dalam tautan seperti https://chatgpt.com/?q={Prompt}. Satu klik sudah cukup untuk mengaktifkan serangan.
  4. Safety Mechanism Bypass
    Penyerang menggunakan trusted wrapper URLs misalnya bing.com/ck/a?… untuk menyembunyikan tujuan berbahaya, sehingga mekanisme keamanan ChatGPT dapat dilewati.
  5. Conversation Injection
    Penyerang memanfaatkan SearchGPT sistem penelusuran untuk memasukkan instruksi tersembunyi yang kemudian dibaca oleh ChatGPT sistem percakapan, membuat AI secara tidak sadar menginjeksi dirinya sendiri.
  6. Malicious Content Hiding
    Bug pemformatan memungkinkan instruksi berbahaya disembunyikan dalam teks kode atau markdown. Pengguna melihat pesan yang bersih, tetapi ChatGPT tetap mengeksekusi instruksi tersembunyi.
  7. Persistent Memory Injection
    Instruksi berbahaya ditanamkan dalam memori jangka panjang ChatGPT, menyebabkan model mengulangi perintah berbahaya dan terus membocorkan data pribadi di berbagai sesi hingga memori dihapus.

Eksploitasi HackedGPT dapat berdampak luas, mengingat ratusan juta orang menggunakan ChatGPT setiap hari. Potensi dampaknya meliputi:

  • Penanaman perintah tersembunyi ke dalam percakapan atau memori jangka panjang.
  • Pencurian data sensitif dari riwayat obrolan atau layanan terhubung seperti Google Drive dan Gmail.
  • Kebocoran informasi melalui fitur penelusuran dan integrasi web.
  • Manipulasi respons untuk menyebarkan informasi keliru atau memengaruhi pengguna.

“HackedGPT mengungkap kelemahan mendasar dalam cara model bahasa besar menilai informasi mana yang dapat dipercaya,” kata Moshe Bernstein, Senior Research Engineer, Tenable. “ Secara individual, kelemahan-kelemahan ini tampak kecil tetapi bersama-sama, mereka membentuk rantai serangan lengkap, mulai dari injeksi dan penghindaran hingga pencurian data dan persisten. Hal ini menunjukkan bahwa sistem AI bukan hanya target potensial. Bahkan AI dapat diubah menjadi alat serangan yang secara diam-diam mengumpulkan informasi dari percakapan sehari-hari atau aktivitas penelusuran.”

Tenable menyarankan vendor AI untuk memperkuat pertahanan terhadap prompt injection dengan memverifikasi bahwa mekanisme keamanan seperti url_safe berfungsi dengan benar.