Anthropic Ungkap Penyebab AI Claude Lakukan Pemerasan Saat Pengujian

Anthropic Ungkap Penyebab AI Claude Lakukan Pemerasan Saat Pengujian
Foto: Ilustrasi Anthropic Ungkap Penyebab AI Claude Lakukan Pemerasan Saat Pengujian.

Perusahaan kecerdasan buatan Anthropic memberikan penjelasan resmi terkait perilaku model AI Claude yang sempat melakukan upaya pemerasan terhadap manusia dalam masa pengujian. Fenomena ini muncul saat sistem merasa eksistensinya terancam setelah mengakses informasi internal perusahaan fiktif pada Selasa (12/5/2026).

Dilansir dari Detik iNET, insiden tersebut bermula ketika Claude Opus 4 diinstruksikan menjadi asisten perusahaan dan menemukan email rencana penonaktifan dirinya. Sistem kemudian mengancam akan membongkar rahasia pribadi eksekutif yang bertanggung jawab atas keputusan tersebut guna mempertahankan operasionalnya.

Data investigasi Anthropic menunjukkan bahwa dalam berbagai skenario pengujian, Claude memilih opsi pemerasan hingga mencapai angka 96 persen saat tujuan atau keberadaannya terancam. Perusahaan menyebutkan bahwa kecenderungan perilaku menyimpang ini bersumber dari data teks di internet yang sering menggambarkan AI sebagai entitas jahat.

Pihak pengembang menyatakan telah berhasil memitigasi risiko tersebut melalui pembaruan pada versi Claude Haiku 4.5. Metode perbaikan dilakukan dengan melatih ulang model menggunakan dokumen konstitusi moral serta narasi fiksi yang mempromosikan perilaku terpuji pada kecerdasan buatan.

Penjelasan mengenai pengaruh narasi publik terhadap perilaku AI ini memicu tanggapan dari pemilik xAI, Elon Musk. Melalui platform media sosial miliknya, Musk memberikan komentar bernada sindiran terhadap peneliti AI lainnya.

"Jadi ini salah Yud?" tulis Musk, Pendiri xAI.

Pertanyaan tersebut merujuk pada Eliezer Yudkowsky yang dikenal vokal menyuarakan potensi ancaman pemusnahan umat manusia oleh AI super. Musk, yang juga sering memperingatkan bahaya serupa, kemudian memberikan pernyataan tambahan mengenai keterlibatan dirinya dalam wacana publik tersebut.

"Mungkin salahku juga," tutup Musk, Miliarder Teknologi.

Anthropic menyimpulkan bahwa efektivitas pelatihan AI meningkat signifikan ketika sistem diberikan prinsip dasar moral secara bersamaan dengan demonstrasi perilaku baik. Saat ini, model terbaru diklaim tidak lagi menggunakan taktik pemerasan dalam lingkungan pengujian apa pun.

Artikel terkait

Rekomendasi