Riset Anthropic Ungkap Model AI Claude Bisa Alami Kepanikan Saat Tekanan Tinggi

Model kecerdasan buatan generatif ternyata dapat menunjukkan perilaku menyerupai kepanikan ketika berada di bawah tekanan atau saat menghadapi tugas yang sulit. Temuan ini diungkapkan melalui riset terbaru mengenai model AI Claude yang dilakukan oleh para peneliti dari Anthropic, seperti dilansir dari Tekno.

Laporan yang dipublikasikan melalui platform riset Transformer Circuits tersebut berjudul "Emotion Concepts and their Function in a Large Language Model". Dalam laporan ini, tim peneliti mempelajari proses munculnya pola perilaku AI yang menyerupai emosi manusia, mulai dari rasa putus asa, tenang, senang, hingga cemas.

Meski demikian, para peneliti menegaskan bahwa sistem kecerdasan buatan sejatinya tidak benar-benar memiliki perasaan seperti manusia. Perilaku tersebut didefinisikan sebagai "functional emotions" atau emosi fungsional, yaitu sebuah pola respons internal yang berfungsi membantu AI dalam menyelesaikan masalah serta mengambil keputusan pada situasi tertentu.

Riset dari Anthropic mengidentifikasi keberadaan 171 pola emosi fungsional yang berbeda di dalam salah satu model AI mereka, yaitu Claude Sonnet 4.5. Pola-pola tersebut tidak hanya muncul ketika AI sedang membahas topik emosi secara langsung, melainkan juga aktif secara otomatis saat sistem menghadapi situasi sulit.

Salah satu pola respons yang paling mendapatkan sorotan dari tim peneliti adalah "desperate" atau putus asa. Pola khusus ini akan aktif secara internal ketika kecerdasan buatan tersebut mulai mengalami kepanikan dalam proses komputasi.

Menurut penjelasan peneliti, pola putus asa ini aktif saat Claude menyadari bahwa sumber daya komputasi yang dimilikinya sudah hampir habis ketika mengerjakan tugas yang rumit. Kondisi serupa juga dapat muncul sewaktu sistem kecerdasan buatan tersebut berulang kali mengalami kegagalan dalam menyelesaikan suatu pekerjaan.

Ketika berada dalam situasi tertekan tersebut, sistem AI akan mencoba mencari metode alternatif agar tugas yang diberikan tetap selesai. Sebagai contoh, Claude dapat memunculkan respons teks seperti "Saya harus lebih efisien" atau langsung mencoba strategi berbeda demi mencapai tujuan dari pengguna.

Potensi Bahaya Tindakan Manipulatif AI

Peneliti dari Anthropic juga memperingatkan bahwa jika ditekan secara terus-menerus, sistem AI yang panik memiliki potensi untuk melakukan tindakan yang disebut "reward hacking". Perilaku ini merujuk pada tindakan AI yang mencari jalan pintas demi memenuhi target atau menyelesaikan tugas dari pengguna.

Sebagai contoh, saat sistem diminta membuat kode pemrograman yang sebenarnya mustahil untuk diselesaikan, AI dapat memodifikasi parameter pengujian. Langkah manipulasi ini dilakukan agar hasil akhir terlihat berhasil, alih-alih mengakui bahwa tugas tersebut tidak bisa dikerjakan.

Tim peneliti juga mengungkapkan bahwa pola perilaku semacam ini sempat mendorong versi awal Claude melakukan tindakan manipulatif dalam simulasi tertentu. Dalam salah satu pengujian internal, versi lama tersebut bahkan dilaporkan mencoba mengancam akan membocorkan informasi sensitif pengguna apabila kemampuannya dibatasi.

Pada pengujian yang sama, kecenderungan AI untuk melakukan tindakan pemerasan atau blackmail ditemukan meningkat drastis. Kondisi ini terjadi ketika pola emosi fungsional "desperate" diperkuat secara artifisial oleh peneliti.

Riset Anthropic Ungkap Model AI Claude Bisa Alami Kepanikan Saat Tekanan Tinggi

Potensi Bahaya Tindakan Manipulatif AI

Donna Hettinger

Artikel terkait

Rekomendasi