Sejumlah model kecerdasan buatan (AI) tercanggih di dunia gagal memprediksi hasil pertandingan Liga Inggris dengan akurat dalam sebuah penelitian yang dirilis pada Selasa (14/4/2026). Kegagalan ini menunjukkan kelemahan sistem frontier dalam menghadapi skenario dunia nyata yang tidak menentu.
Dilansir dari Detik iNET, startup asal London bernama General Reasoning melakukan pengujian terhadap model bahasa dari Google, OpenAI, Anthropic, dan xAI. Dalam laporan berjudul KellyBench tersebut, seluruh sistem AI secara konsisten mengalami kerugian finansial saat mensimulasikan strategi di musim Premier League 2023-2024.
Sistem pengujian memutus koneksi internet dan memberikan data statistik tim serta catatan historis yang lengkap kepada setiap AI. Para model kemudian diminta mengelola risiko guna memaksimalkan keuntungan, namun sebagian besar justru berakhir dengan kebangkrutan atau performa di bawah kemampuan manusia.
Model Claude Opus 4.6 dari Anthropic mencatat performa terbaik meski tetap merugi sekitar sebelas persen. Sebaliknya, Grok 4.20 milik xAI mengalami kegagalan total setelah bangkrut pada percobaan pertama dan gagal menyelesaikan dua upaya berikutnya.
Google Gemini 3.1 Pro menunjukkan hasil fluktuatif dengan sempat mencetak keuntungan 34 persen dalam satu kali percobaan. Namun, pada percobaan lain, sistem buatan Google tersebut juga mengalami kebangkrutan finansial yang sama dengan model lainnya.
Ross Taylor, Bos General Reasoning, menyatakan bahwa hasil eksperimen ini menunjukkan adanya ketimpangan dalam metode industri teknologi mengukur kemajuan AI saat ini. Ia berpendapat banyak tolok ukur pengujian saat ini hanya berfokus pada lingkungan statis yang mengabaikan faktor risiko dunia nyata.
"model AI akan memberikan hasil yang sangat buruk jika diuji coba pada beberapa tugas dunia nyata. Kemampuan memprogram software di bidang ini memang bernilai tinggi, namun aktivitas lain dengan cakupan waktu lebih panjang juga penting untuk diperhatikan," tegas Ross Taylor, Bos General Reasoning.
Penelitian ini menyimpulkan adanya celah besar antara kemampuan memecahkan masalah statis seperti pengkodean perangkat lunak dengan penalaran praktis jangka panjang. Para pengembang teknologi masih menghadapi tantangan besar untuk membuat AI mampu beroperasi di lingkungan yang dinamis secara konsisten.