AI Kian Pintar: Grok-4.20 & GPT 5.4 Pro Raih IQ 145, Tertinggi Jauh di Atas Skor Manusia Sekitar 100

AI Kian Pintar: Grok-4.20 & GPT 5.4 Pro Raih IQ 145, Tertinggi Jauh di Atas Skor Manusia Sekitar 100

20/06/2026

AI Kian Pintar: Grok-4.20 & GPT 5.4 Pro Raih IQ 145, Tertinggi Jauh di Atas Skor Manusia Sekitar 100

jurnalistik.co.id – Persaingan kecerdasan buatan kini makin bergeser: bukan hanya soal seberapa cepat menjawab atau menghasilkan tampilan yang meyakinkan, tetapi juga kemampuan menghadapi tugas-tugas kompleks seperti penalaran manusia.

Dalam pengujian berbasis tes IQ, dua model justru tampil sebagai yang paling menonjol. Penilaian dilakukan oleh TrackingAI untuk memetakan kemampuan sejumlah model AI sepanjang 2026.

Menurut hasil pengujian TrackingAI, puncak skor ditempati dua model dengan angka yang sama. Grok-4.20 Expert Mode (Vision) dari xAI dan GPT 5.4 Pro (Vision) dari OpenAI sama-sama meraih skor IQ 145, tertinggi di antara puluhan model yang diuji sepanjang 2026.

Di bawah keduanya, ada beberapa model yang juga mengantongi skor sangat tinggi. Gemini 3.1 Pro Preview (Vision) dari Google mencatat skor 141, disusul GPT 5.4 Thinking (Vision) dengan skor 139, serta GPT 5.3 dengan skor 136.

Sebagai pembanding, manusia rata-rata memiliki skor IQ sekitar 100. Sementara itu, skor 130 ke atas umumnya sudah masuk kategori jenius, sehingga posisi teratas pada jajaran model AI menggambarkan jarak yang jauh dari rata-rata kemampuan manusia pada tes yang digunakan.

Deretan 10 Model AI dengan skor IQ tertinggi Berdasarkan pengujian TrackingAI menggunakan Mensa Norway IQ Test per April 2026, peringkatnya sebagai berikut: xAI Grok-4.20 Expert Mode (Vision) dan OpenAI GPT 5.4 Pro (Vision) sama-sama IQ 145. Selanjutnya, Google Gemini 3.1 Pro Preview (Vision) IQ 141, OpenAI GPT 5.4 Thinking (Vision) IQ 139, OpenAI GPT 5.3 IQ 136, xAI Grok-4.20 Expert Mode IQ 133, OpenAI GPT 5.4 Thinking IQ 133, Meta AI Muse Spark IQ 133, Google Gemini 3.1 Pro Preview IQ 132, dan Alibaba Qwen 3.5 IQ 130.

TrackingAI juga menampilkan sejumlah model populer yang berada di luar kelompok 10 besar. Claude 4.6 Opus dari Anthropic mencatat IQ 130, DeepSeek R1 berada di angka 112, sedangkan Perplexity meraih skor 97.

Bagaimana AI diuji? Daftar tersebut disusun dengan menggunakan Mensa Norway IQ Test, tes IQ publik dari organisasi Mensa Norwegia yang menilai kemampuan penalaran dan pengenalan pola. Tes ini terdiri dari 35 soal pengenalan pola visual, di mana peserta diminta menemukan hubungan antar bentuk, gambar, simbol, atau urutan tertentu.

TrackingAI mengerjakan soal asli Mensa Norway IQ Test untuk total 26 model AI. Untuk model yang memiliki kemampuan memahami gambar atau vision, soal diberikan dalam bentuk visual asli. Adapun model non-vision menerima versi teks yang menjelaskan isi gambar.

Karena dapat melihat pola secara langsung, model vision disebut cenderung memperoleh skor lebih tinggi dalam kerangka pengujian ini. Dengan demikian, perbedaan dukungan vision menjadi salah satu faktor yang memengaruhi hasil pada tes berbasis pola visual.

Skor makin tinggi dari tahun ke tahun Perkembangan kemampuan AI disebut berjalan cepat. Pada 2025, skor tertinggi yang dicapai model AI dalam pengujian yang sama berada di kisaran 135. Setahun kemudian, angka tertinggi meningkat menjadi 145.

Kenaikan sekitar 10 poin dalam waktu kira-kira satu tahun menunjukkan bahwa kemampuan penalaran AI berkembang dengan laju yang signifikan, terutama untuk tugas yang menuntut logika dan pengenalan pola. Namun, TrackingAI menegaskan bahwa skor IQ tidak boleh diperlakukan sebagai ukuran mutlak kecerdasan AI.

Menurut penegasan TrackingAI, tes seperti ini tidak mengukur sejumlah kemampuan penting lain, seperti kemampuan menulis kode, akurasi fakta, kreativitas, keamanan sistem, maupun kemampuan menyelesaikan pekerjaan profesional di dunia nyata. Dengan kata lain, model dengan skor IQ tertinggi belum tentu otomatis menjadi pilihan terbaik untuk semua kebutuhan.

Penilaian semacam ini, pada akhirnya, memberi gambaran spesifik tentang cara model menangani pola dan penalaran dalam tes tertentu. Di luar konteks itu, kualitas AI tetap perlu dinilai dari kemampuan lain yang lebih relevan dengan tujuan penggunaannya.

Post Views: 0

Pos Terkait

Baca Juga