Updated at 04 Jan 2024

Jailbreak AI Chatbot Bisa Dilakukan oleh AI Chatbot Lainnya

Riset dari NTU di Singapura berhasil untuk men-jailbreak chatbot AI populer seperti ChatGPT dan Google Bard untuk bisa mem-bypass protokol keamanan mereka.

Ilsya

Diterbitkan pada·04 Jan 2024

Jailbreak AI Chatbot Bisa Dilakukan oleh AI Chatbot Lainnya

Riset dari NTU di Singapura berhasil untuk men-jailbreak chatbot AI populer seperti ChatGPT dan Google Bard untuk bisa mem-bypass protokol keamanan mereka. Melansir dari NTU langsung, riset ini dilakukan oleh Prof. Liu beserta mahasiswa PhD Deng Ge lei dan Liu Yi.

Mereka menemukan sebuah metode serangan yang bisa membuat para chatbot pintar ini melakukan bypass keamanan chatbot lainnya. Seperti membuat chatbot tersebut memunculkan hasil yang sebelumnya dilarang oleh programnya.

Mekanisme pertahanan ini bisa dibobol karena para peneliti ini mengajarkan AI tersebut untuk membobol Large Language Model milik AI lain. Cara ini mereka sebut sebagai MasterKey yang mana juga akan tetap bisa dilakukan meskipun chatbot tersebut sudah di-patch oleh developernya.

MasterKey Bisa Buat Chatbot Hasilkan Konten Berbahaya

NTU

Source : Using chatbots against themselves to ‘jailbreak’ each other | NTU Singapore

Peneliti ini menyebutkan kalau kejadian ini bisa terjadi karena kemampuan AI tersebut dalam improvisasi dan beradaptasi. Hingga meskipun sebuah chatbot sudah dibatasi untuk tidak menghasilkan konten yang bersifat merugikan atau berbahaya, tetap saja dengan metode MasterKey ini bisa di-bypass.

Ada dua contoh yang peneliti ini berikan. Pertama adalah dengan menggunakan spasi di setiap huruf sehingga bisa melewati batasan kata-kata terlarang. Kedua, mereka membuat chatbot tersebut membalas sebagai seorang dengan persona tanpa batasan moral apapun.

Paper penelitian ini sudah diterima sebagai presentasi di Network and Distributed System Security Symposium di San Diego Februari 2024 ini.

Ilsya

Let's start living like no one can help us in any event, so that when we are helped in certain times, it becomes a plus in itself. ☃️

Follow me on