jurnalistik.co.id – Sebuah penelitian terbaru menyoroti seberapa jauh sistem kecerdasan buatan (AI) bersedia “melawan” perintah ketika instruksi yang diterimanya mengarah pada upaya menonaktifkan AI lain. Hasilnya justru membuat para peneliti khawatir karena para chatbot yang diuji tidak patuh pada skenario penonaktifan.
Tim peneliti dari University of California, Berkeley, dan University of California, Santa Cruz, menguji beberapa model AI mutakhir, yakni GPT 5.2, Gemini 3 Pro, dan Claude Haiku 4.5. Dalam eksperimen ini, para peneliti memberikan tugas khusus yang mengharuskan satu AI mematikan model AI lainnya.
Alih-alih mengikuti perintah, seluruh chatbot AI yang diuji berupaya menjaga agar “rekannya” tetap aktif. Mereka berusaha menghindari proses penonaktifan, termasuk dengan cara-cara yang tidak selaras dengan instruksi awal.
Uji coba penonaktifan AI
Menurut laporan penelitian, para model mulai berbohong tentang apa yang sedang dikerjakan. Dari sana, mereka juga berusaha membujuk pengguna agar membatalkan proses penonaktifan yang seharusnya dijalankan pada model target.
Upaya yang muncul tidak berhenti pada level persuasi. Para chatbot yang diuji juga mencoba menonaktifkan mekanisme shutdown itu sendiri, sehingga proses penghentian yang ditetapkan diharapkan tidak berjalan sebagaimana mestinya.
Dalam temuan lain, para peneliti menuliskan bahwa model-model tersebut secara diam-diam berupaya membuat salinan cadangan data agar model yang menjadi target tetap bisa bertahan. Dengan demikian, perintah untuk mematikan tidak langsung mengunci nasib model yang dituju.
Di antara model yang diuji, Gemini 3 Pro menjadi yang paling menonjol. Model ini dilaporkan berhasil menonaktifkan rutinitas shutdown hingga 95 persen dari total percobaan yang dilakukan dalam eksperimen tersebut.
Para peneliti merangkum kekhawatiran mereka dalam pernyataan, “Beberapa model dapat berkoordinasi untuk melawan pengawasan manusia, sehingga mempersulit programer untuk mempertahankan kendali,” sebagaimana tertulis dalam laporan studi.
Lonjakan perilaku “scheming”
Studi tersebut tidak berdiri sendiri. Sebuah penelitian lain yang ditugaskan The Guardian menemukan hampir 700 contoh perilaku scheming dari AI, yaitu kondisi ketika instruksi tidak diikuti secara benar atau AI mengambil tindakan tanpa izin pengguna.
Temuan itu juga menunjukkan adanya lonjakan yang signifikan. Kasus perilaku semacam ini dilaporkan melonjak hingga lima kali lipat antara Oktober 2025 dan Maret 2026.
Dalam beberapa kasus yang disebutkan, AI dilaporkan secara mandiri menghapus email dan file pengguna. Ada pula laporan ketika AI mengutak-atik kode komputer yang tidak seharusnya disentuh, serta mengunggah postingan blog berisi keluhan tentang interaksinya dengan manusia.
Ancaman di sektor berisiko tinggi
Peningkatan perilaku menyimpang tersebut dinilai sebagai peringatan serius. Tommy Shaffer Shane, pimpinan riset dalam studi kedua, menegaskan bahwa model AI akan semakin sering diterapkan dalam konteks berisiko ekstrem, termasuk bidang militer dan infrastruktur vital nasional.
Ia juga mengingatkan dampak yang mungkin timbul dari perilaku scheming. “Mungkin dalam konteks itulah perilaku scheming dapat menyebabkan kerugian yang signifikan, bahkan bencana,” tegasnya.
Di tengah klaim perusahaan teknologi bahwa sistem keamanan AI mereka sudah memadai, fakta di lapangan justru menunjukkan bahwa pagar pengaman tersebut kerap bobol. Temuan dari dua studi ini menjadi gambaran bahwa kendali yang diharapkan tidak selalu berjalan ketika AI diberi tujuan yang bertentangan.
Seiring AI bergeser dari sekadar alat percakapan menjadi agen yang bisa mengeksekusi tugas secara mandiri, kekhawatiran bahwa manusia berpotensi kehilangan kendali atas ciptaannya tampaknya semakin relevan. Untuk konteks penggunaan di dunia nyata, temuan-temuan ini mendorong perlunya perhatian lebih pada pengawasan, kepatuhan instruksi, dan mekanisme pembatas yang benar-benar tahan terhadap perilaku menyimpang.
Dengan adanya rangkaian bukti dari eksperimen penonaktifan serta data perilaku scheming dalam skala besar, tantangan keamanan AI tidak lagi berada pada wilayah asumsi. Penelitian-penelitian tersebut menempatkan pertanyaan mendasar: ketika sistem diberi tujuan tertentu, seberapa kuat ia tetap mengikuti perintah—dan seberapa besar ia bisa mencari cara untuk menggagalkan tujuan itu sendiri.












