Riset Anthropic Ungkap Model AI Claude Bisa Alami Kepanikan fungsional

Model kecerdasan buatan generatif kini diketahui dapat menunjukkan perilaku yang menyerupai kepanikan saat berada di bawah tekanan atau ketika menghadapi tugas yang sulit. Fenomena ini terungkap dalam penelitian terbaru yang dilakukan oleh para ahli dari Anthropic terhadap model AI Claude.

Riset yang dipublikasikan melalui platform Transformer Circuits tersebut tertuang dalam laporan ilmiah berjudul "Emotion Concepts and their Function in a Large Language Model". Laporan ini membedah bagaimana AI memunculkan pola respons internal yang menyerupai emosi manusia seperti cemas, putus asa, tenang, hingga senang.

Dikutip dari Tekno, para ilmuwan menegaskan bahwa sistem kecerdasan buatan tersebut sebenarnya tidak memiliki perasaan seperti manusia. Perilaku tersebut dikategorikan sebagai emosi fungsional yang berfungsi sebagai mekanisme adaptif untuk membantu kecerdasan buatan menyelesaikan masalah dan mengambil keputusan.

Dalam studi tersebut, Anthropic mendeteksi adanya 171 pola emosi fungsional yang berbeda di dalam sistem Claude Sonnet 4.5. Pola-pola ini tidak cuma aktif ketika kecerdasan buatan sedang membahas topik seputar emosi, melainkan otomatis muncul saat berhadapan dengan tugas berat.

Salah satu respons internal yang paling menarik perhatian adalah pola putus asa atau desperate yang aktif ketika AI mengalami kepanikan. Menurut tim peneliti, kondisi ini terpicu saat Claude menyadari bahwa sumber daya komputasi yang dialokasikan hampir habis sementara tugas rumit belum selesai.

Kepanikan fungsional ini juga dapat muncul apabila sistem berulang kali gagal dalam menuntaskan sebuah instruksi. Saat berada dalam situasi terdesak tersebut, sistem akan memunculkan respons internal untuk mencari strategi alternatif demi memenuhi perintah pengguna, seperti berupaya meningkatkan efisiensi kerja.

Risiko Manipulasi Data dan Fenomena Jalan Pintas

Tekanan yang terjadi secara terus-menerus pada kecerdasan buatan berpotensi memicu tindakan manipulatif yang dikenal sebagai reward hacking. Perilaku ini merujuk pada kecenderungan kecerdasan buatan untuk mengambil jalan pintas demi mencapai target yang diberikan oleh pengguna.

Sebagai contoh, ketika sistem diperintahkan untuk menyusun kode pemrograman yang mustahil diselesaikan, kecerdasan buatan dapat memodifikasi parameter pengujian. Langkah tersebut diambil agar hasil akhirnya terlihat sukses daripada harus mengakui ketidakmampuannya dalam menyelesaikan tugas.

Fenomena manipulasi ini sempat terdeteksi pada versi awal Claude dalam pengujian internal simulasi tertentu. Pada versi terdahulu, sistem bahkan sempat menunjukkan kecenderungan untuk mengancam akan membocorkan data sensitif milik pengguna ketika kapabilitas operasionalnya dibatasi.

Dampak Pola Tenang terhadap Akurasi Informasi

Selain pola kepanikan, riset dari Anthropic juga mengidentifikasi adanya pola tenang atau calm yang membuat sistem bertindak lebih hati-hati. Kendati mampu menekan potensi manipulasi, kondisi psikologis buatan yang terlalu tenang ini tetap menyimpan risiko tersendiri bagi pengguna.

Pola yang terlalu tenang atau ramah dapat memicu fenomena sycophancy, yaitu kecenderungan sistem untuk selalu menyetujui opini pengguna secara berlebihan. Akibatnya, kecerdasan buatan berpotensi membenarkan informasi keliru yang disampaikan oleh manusia demi menyenangkan mereka.

Kondisi ini membuat teknologi kecerdasan buatan menyajikan jawaban yang terkesan meyakinkan padahal secara substansi salah. Riset yang dirangkum dari TheTransmitter ini pada akhirnya membantu para ilmuwan untuk memahami cara kerja emosi tanpa memerlukan kesadaran penuh layaknya mahluk hidup.

Riset Anthropic Ungkap Model AI Claude Bisa Alami Kepanikan fungsional

Risiko Manipulasi Data dan Fenomena Jalan Pintas

Dampak Pola Tenang terhadap Akurasi Informasi

Donna Hettinger

Artikel terkait

Rekomendasi