Grok 4 Baru Saja Menghancurkan Langit-langit AI-Sinilah Alasannya Mengapa Hal Itu Mengubah Segalanya
Memperkenalkan Grok 4, model AI paling kuat di dunia. Tonton siaran langsungnya sekarang: https://t.co/59iDX5s2ck
- xAI (@xai) 10 Juli 2025
Hal itu meningkat dengan cepat. Tiga minggu yang lalu, Elon Musk dan xAI meluncurkan Grok 4 ke dunia yang tidak menaruh curiga, dan tolok ukurnya terus membuat para peneliti AI berpengalaman melakukan pengambilan gambar dua kali. Bayangkan sebuah AI yang dapat memecahkan masalah seperti tim PhD yang sedang bertukar pikiran pada pukul 3 pagi. Sekarang setelah hype awal mereda dan para pengembang telah menjalankan Grok 4 dengan baik, izinkan saya memandu Anda mengapa model ini mewakili lebih dari sekadar rilis lain - ini adalah sekilas tentang masa depan di mana AI menjadi mitra intelektual sejati.
https://x.com/xai/status/1943158495588815072
Peluncuran yang Mendobrak Internet (dan Beberapa Rekor)
xAI meluncurkan Grok 4 pada tanggal 9 Juli 2025, melalui siaran langsung yang menarik 1,5 juta pemirsa - tidak buruk untuk presentasi teknis di malam hari.¹ Waktunya... menarik, datang hanya satu hari setelah Grok 3 menjadi berita utama karena alasan yang salah dengan beberapa hasil yang kontroversial.² Tetapi xAI memutuskan bahwa pertahanan terbaik adalah serangan yang luar biasa.
Musk memperkenalkan dua varian: Grok 4 standar dan Grok 4 Heavy, yang terakhir mengerahkan beberapa agen AI yang saling memeriksa pekerjaan satu sama lain seperti kelompok belajar di mana setiap orang melakukan pembacaan.³ Akses berjalan melalui aplikasi, situs web, atau API Grok, dengan Heavy eksklusif untuk pelanggan SuperGrok Heavy dengan harga $ 300 / bulan - sebuah harga yang menyatakan "kami serius dengan hal ini." Untuk yang penasaran: https://x.ai/grok untuk akses umum, https://x.ai/api untuk pengembang.
Fitur yang Membuat AI Lain Terlihat Seperti Kalkulator
Grok 4 mengemas jendela konteks 256.000 token (kira-kira setara dengan teks senilai novel yang dapat diproses sekaligus), analisis gambar, pemanggilan fungsi, dan mode suara yang begitu alami sehingga Anda mungkin lupa bahwa Anda sedang berbicara dengan silikon.⁵ Namun, di sinilah letak kesulitannya: penggunaan alat asli. xAI melatih binatang buas ini dengan pembelajaran penguatan untuk menggunakan penerjemah kode dan ekstensi pikirannya yang mirip peramban web.
Pencarian real-time di X, web, dan berita membuat tanggapan tetap segar-tidak ada lagi alasan "pengetahuan saya terbatas". Kemampuan multimodal memungkinkannya memadukan analisis teks dan penglihatan dengan mulus, sementara Mode Suara menambahkan analisis pemandangan melalui kamera Anda.⁶ Untuk orang-orang perusahaan yang berkeringat tentang kepatuhan: SOC 2 Tipe 2, GDPR, dan CCPA semuanya sudah dicentang. Ini seperti memiliki asisten peneliti cerdas yang tidak pernah tidur, tidak pernah mengeluh tentang lembur, dan memahami tulisan tangan Anda yang buruk.
Saus Rahasia: Ketika Kekuatan Kasar Bertemu dengan Kemahiran
Di balik keajaiban Grok 4, terdapat superkomputer Colossus milik xAI - monster 200.000 GPU yang membuat sebagian besar pusat data terlihat seperti kalkulator saku.⁷ Namun, kekuatan mentah tidak menceritakan keseluruhan cerita. xAI merevolusi pendekatan mereka dengan menskalakan pembelajaran penguatan agar sesuai dengan komputasi pra-pelatihan, dengan fokus pada data yang dapat diverifikasi dari matematika, pengkodean, dan domain ilmiah, yang meningkatkan efisiensi hingga 6x lipat, mengubah otot komputasi menjadi kecerdasan yang disempurnakan.⁸
Inovasi yang sesungguhnya? Mereka menghabiskan banyak waktu untuk pembelajaran penguatan pasca-pelatihan, sama banyaknya dengan pra-pelatihan itu sendiri.⁹ Grok 4 Heavy mengambil pendekatan lebih jauh dengan komputasi paralel-waktu uji coba-beberapa agen AI yang menangani masalah secara bersamaan sebelum membandingkan catatan. Bayangkan peningkatan dari penemu garasi tunggal menjadi orkestra yang disinkronkan dari para pemenang Nobel, masing-masing memeriksa pekerjaan orang lain.
Pemeriksaan Realitas Infrastruktur
Superkomputer Colossus memiliki 200.000 GPU, yang hanya... Saya bahkan tidak bisa membayangkan jumlah itu. Sebagian besar perusahaan sangat senang ketika mereka mendapatkan cluster dengan beberapa ratus GPU yang bekerja dengan lancar. Tapi 200.000? Output panasnya saja sudah seperti menjalankan pembangkit listrik kecil.
Dan itu bahkan sebelum Anda berpikir untuk menghubungkan semuanya dengan benar, menjaga agar semuanya tetap terisi dengan data, memastikan jaringan listrik Anda tidak mati begitu saja .... Setiap detail penting: bagaimana Anda mengatur rak, jenis pendingin yang Anda gunakan (dan ya, Anda membutuhkan pendingin yang serius karena perangkat ini bisa menjadi panas), ditambah lagi dengan semua mimpi buruk jaringan dan distribusi daya yang menyertainya. Kacaukan salah satu bagian dari teka-teki itu, dan Anda akan menghabiskan uang untuk perangkat keras yang berkinerja buruk. Perusahaan yang ingin membangun infrastruktur AI mereka sendiri, entah itu 10 GPU atau 10.000.000, membutuhkan keahlian dalam segala hal, mulai dari distribusi daya hingga koneksi serat optik yang rumit yang membuat data tetap mengalir dengan kecepatan tinggi. Di sinilah titik di mana penerapan infrastruktur profesional membuat perbedaan antara spesifikasi teoretis dan kinerja dunia nyata. Seperti yang diketahui oleh tim di Introl dari penerapan cluster AI yang tak terhitung jumlahnya, masalahnya ada pada detailnya-infrastruktur yang tepat dapat membuat perbedaan antara GPU yang bekerja pada efisiensi 95% dibandingkan dengan membiarkan 30% kinerja Anda di atas meja.
Angka-angka yang Membuat Para Ahli Statistik Menangis Gembira
Mari selami tolok ukur yang membuat komunitas AI berdengung. Pada tes ARC-AGI-2 yang terkenal brutal-di mana model harus mendemonstrasikan penalaran abstrak dengan contoh yang minimal-Grok 4 (mode Berpikir) mengklaim takhta dengan 15,9% dengan biaya sekitar $ 4 per tugas.¹⁰ Itu hampir dua kali lipat dari 8,6% milik Claude Opus 4, dan sebelum Anda mengejek "hanya 15,9%," ingatlah bahwa sebagian besar model berjuang untuk memecahkan 5% pada tes ini.¹¹ Ini seperti melihat seseorang memecahkan kubus Rubik dengan mata tertutup saat semua orang masih mencari tahu sisi mana yang berwarna merah.
Eksperimen penskalaan mengungkapkan sesuatu yang menarik. Dengan komputasi pelatihan saja, Grok 4 mencapai sekitar 50% pada Ujian Terakhir Kemanusiaan (subset khusus teks). Tambahkan alat bantu, dan hasilnya melonjak menjadi 50,7%.¹² Penskalaan waktu pengujian mencapai 50%, membuktikan bahwa strategi inferensi yang lebih inovatif-bukan hanya melemparkan lebih banyak komputasi pada masalah-mendorong terobosan.
Pada AIME25 (American Invitational Mathematics Examination), Grok 4 Heavy meraih nilai sempurna 100%, meninggalkan Claude 4 Opus (75,5%) dan Gemini 2.5 Pro (88,0%) di belakangnya.¹³ Bahkan tanpa alat bantu pun, Grok 4 standar meraih nilai 91,7%-ini lebih baik daripada kebanyakan peserta kompetisi matematika.
Tapi inilah yang paling menarik: Ujian Terakhir Kemanusiaan (set lengkap). Tantangan 2.500+ pertanyaan di bidang STEM dan humaniora memisahkan antara hafalan dan penalaran yang sebenarnya.¹⁴ Grok 4 Heavy mendapat skor 44,4%, hampir dua kali lipat dari Gemini 2.5 Pro yang mendapat skor 25,4%, dan lebih dari dua kali lipat dari o3 yang mendapat skor 21,0%.¹⁵ Ketika AI Anda mengungguli yang lain dengan selisih seperti itu, Anda tidak mengulang-ulang-anda melakukan revolusi.
Performa Dunia Nyata yang Penting
Di luar tolok ukur akademis, Grok 4 mendominasi tes praktis. Di Vending-Bench (ya, ini adalah tolok ukur nyata tentang mengoptimalkan operasi mesin penjual otomatis), Grok 4 mencapai nilai bersih $4.694 dengan 4.569 unit terjual-lebih dari dua kali lipat dari Claude Opus 4 yang hanya $2.077 dan empat kali lipat dari performa manusia yang hanya $844.
Kemenangan tambahan: USAMO'25 (61,9%), GPQA Diamond (88%), LiveCodeBench (79,4%), dan MMLU-Pro (87%).¹⁷ Para evaluator independen di Artificial Analysis memahkotai Grok 4 dengan skor 73 pada Indeks Kecerdasan mereka, mengungguli OpenAI's o3 dan Google's Gemini 2.5 Pro (keduanya di angka 70).¹⁸ Lumayan untuk model yang baru saja muncul tiga minggu yang lalu.
Keputusan Komunitas: Gembira, Skeptis, dan Segala Sesuatu di Antara Keduanya
Sejak diluncurkan, X (sebelumnya Twitter) telah menjadi tempat uji coba kemampuan Grok 4. Para pengembang melaporkan bahwa mereka telah menempelkan seluruh basis kode untuk melakukan debug, dengan hasil yang mengungguli alat khusus seperti Cursor.¹⁹ Salah satu pengguna menyebutnya sebagai "hal yang paling mendekati AGI," sementara para ilmuwan bertanya tentang masalah material yang belum terpecahkan dan menerima wawasan baru yang dapat dicoba.²⁰ Setelah tiga minggu penggunaan di dunia nyata, pola-pola muncul: model ini unggul dalam tugas-tugas penalaran yang kompleks tetapi menunjukkan keunikan yang menarik dalam aplikasi-aplikasi kreatif.
Namun, tidak semuanya mendapat tepuk tangan meriah. Pengguna mencatat batasan kecepatan pada 75 token/detik (terhormat tetapi tidak terlalu tinggi), dan moderasi konten tetap minimal - Grok 4 kurang difilter daripada pesaing, memicu perdebatan tentang netralitas AI versus keamanan.²¹ Beberapa orang menghargai tanggapan yang mentah dan tidak dipernis; yang lain khawatir tentang potensi penyalahgunaan. Demokrasi sedang beraksi, kawan-kawan.
Apa Artinya Ini untuk Hari Esok (Spoiler: Segalanya Berubah)
Di sinilah optimisme saya semakin menjadi-jadi. Grok 4 melampaui kategori chatbot-ini adalah pratinjau AI sebagai mitra intelektual. Ketika sebuah AI mendapatkan nilai setingkat PhD dalam kompetisi matematika dan membantu para ilmuwan mengeksplorasi masalah yang belum terpecahkan, kita menyaksikan fajar penemuan yang ditingkatkan.
Untuk Sains: Bayangkan para peneliti di seluruh dunia memiliki akses ke AI yang benar-benar memahami matematika kompleks dan dapat mengajukan hipotesis baru. Penemuan obat, pemodelan iklim, dan ilmu pengetahuan material-semuanya dipercepat.
Untuk Rekayasa: Di luar debugging, kita berbicara tentang AI yang memahami arsitektur sistem dan dapat menyarankan pengoptimalan yang mungkin tidak pernah dipertimbangkan oleh manusia. Ini seperti memiliki Dijkstra dan Turing dalam panggilan cepat.
Untuk Pendidikan: Bimbingan belajar yang dipersonalisasi yang tidak hanya menyesuaikan dengan kesalahan siswa, tetapi juga dengan cara mereka berpikir. Setiap siswa akan mendapatkan mentor yang sabar dan brilian yang disesuaikan dengan gaya kognitif mereka.
Untuk Bisnis: Dari perencanaan strategis hingga analisis pasar, kemampuan penalaran Grok 4 dapat mengubah pengambilan keputusan dari firasat menjadi wawasan berbasis data dengan pemahaman yang bernuansa.
Peringatan (Karena Kejujuran Mengalahkan Hype)
Mari kita tetap realistis - tidak ada AI yang sempurna, dan Grok 4 memiliki ruang untuk berkembang. Kecepatan 75 token/detik tidak akan memenangkan perlombaan melawan server inferensi khusus. Halusinasi, meskipun telah berkurang, belum sepenuhnya hilang (sebuah tantangan di seluruh industri). Penyaringan konten yang minimal menimbulkan kekhawatiran yang valid tentang potensi penyalahgunaan.
Dengar, xAI tidak memberi tahu kami secara gamblang tentang data pelatihan mereka, dan itu... tidak bagus. Kita semua tahu bagaimana hal ini terjadi-bias data akan diperkuat ketika Anda meningkatkan skala sebesar ini. Semua orang di bidang AI mengawasi xAI seperti elang saat ini. Bagaimana mereka menangani bagian etika saat Grok 4 menyebar? Itu akan sangat penting.
Jalan di Depan: Segalanya Akan Menjadi Aneh
Jadi, xAI menunjukkan beberapa rencana mereka selama presentasi, dan satu hal yang benar-benar mengejutkan saya. Mereka menyebutkan bahwa mereka akan menghubungkan Grok ke perangkat lunak dinamika fluida komputasi Tesla - CFD yang sama yang digunakan oleh para insinyur Tesla untuk aerodinamika dan manajemen termal pada kendaraan yang sebenarnya.²²
Saya harus duduk dengan itu selama satu menit. Kita telah terbiasa dengan AI yang mengetahui fakta, menjawab pertanyaan, dan menulis kode. Tetapi integrasi CFD mewakili sesuatu yang berbeda. Memiliki AI yang dapat menjelaskan cara kerja dinamika fluida adalah satu hal. Lain halnya jika AI tersebut dapat menggunakan perangkat lunak CFD untuk mendesain benda-benda yang bergerak melalui udara dan menghilangkan panas. Itu bukanlah kemajuan tambahan-itu adalah kemampuan yang sama sekali baru.
OpenAI, Anthropic, dan Google tidak akan menonton dari pinggir lapangan. Namun Grok 4 mengubah permainan-kami beralih dari wilayah "asisten yang membantu" menjadi "mitra yang bernalar." Pergeseran ini mengingatkan saya pada apa yang Ray Kurzweil bicarakan tentang ledakan intelijen-setiap terobosan membuat terobosan berikutnya terjadi lebih cepat dan lebih cepat. Kami menyaksikan hal itu terjadi dalam waktu nyata.
Giliranmu: Apa yang Akan Anda Bangun?
Jadi saya berpikir-apa jadinya jika AI dapat menalar pada tingkat PhD secara keseluruhan? Masalah apa yang tampaknya mustahil tiba-tiba terbuka lebar? Apa yang akan kita temukan ketika alat bantu kita dapat berpikir bersama kita? Dan sejujurnya, pagar pembatas seperti apa yang perlu kita pasang ketika AI menjadi sepintar ini?
Jika Anda seorang pengembang, Anda sudah merencanakan apa yang akan dibangun dengan API tersebut. Para peneliti mungkin sedang memikirkan apa yang tiba-tiba menjadi mungkin. Dan jika Anda duduk di sini dan berpikir, "Apa arti dari kemampuan Grok 4?" - ya, saya mengerti. Konsep ini membutuhkan waktu untuk diproses.
Namun, inilah masalahnya: Grok 4 mendarat di pangkuan kami, entah kami siap atau tidak. AI hanya berkata, "Inilah yang mungkin dilakukan sekarang, cari tahu apa yang harus dilakukan dengannya."
Jadi... apa yang akan Anda lakukan dengannya? API Grok ada di https://x.ai/apidan ada banyak komunitas di X di mana para pengembang dan peneliti sudah mendorong batas-batasnya. Tiga minggu setelah diluncurkan, kami melihat aplikasi yang tidak pernah diperkirakan sebelumnya. Kesempatan di sini sangat besar-jangan sia-siakan.
Referensi
Scott Rosenberg, "Elon Musk's xAI debutkan Grok 4, 'AI terpintar di dunia,'" Axios, 10 Juli 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk meluncurkan pembaruan Grok 4 sehari setelah chatbot xAI membuat pernyataan antisemit," CBS News, 10 Juli 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI meluncurkan Grok 4 bersama dengan langganan bulanan $300," TechCrunch, 9 Juli 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"xAI milik Elon Musk meluncurkan Grok 4 bersama dengan langganan bulanan sebesar $300," TechCrunch.
xAI, "Pengumuman Perilisan Grok 4," presentasi streaming langsung, 9 Juli 2025.
xAI, "Pengumuman Perilisan Grok 4."
"Rilis Grok 4: xAI Mengklaim Mahkota Model AI #1 dalam Pengujian Independen," Gear Musk, 10 Juli 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Pengumuman Perilisan Grok 4."
"Musk's Grok-4 Menghancurkan Benchmark, Mengalahkan OpenAI & Google di RL," Majalah Analytics India, 10 Juli 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC Prize," X (sebelumnya Twitter), 10 Juli 2025, https://twitter.com/arcprize/status/[specific-id].
François Chollet, "ARC-AGI: Batas Baru dalam Penalaran AI," ARC Prize Organization, 2025.
xAI, "Pengumuman Perilisan Grok 4."
"Model AI Grok 4 Elon Musk Mencetak Rekor Benchmark Baru," Beebom, 10 Juli 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI menetapkan rekor tolok ukur AI dengan model Grok 4 yang dioptimalkan untuk penalaran baru," SiliconANGLE, 10 Juli 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Pengumuman Perilisan Grok 4."
xAI, "Pengumuman Perilisan Grok 4."
xAI, "Pengumuman Perilisan Grok 4."
"Perbandingan Model AI di seluruh Kecerdasan, Kinerja, Harga," Analisis Buatan, diakses pada 11 Juli 2025, https://artificialanalysis.ai/models.
Testimoni pengguna, X (sebelumnya Twitter), 10-11 Juli 2025.
Testimoni pengguna, X (sebelumnya Twitter), 10-11 Juli 2025.
"Apa yang Baru di Grok 4? Fakta Rilis, Tolok Ukur, dan Nilai," SmythOS, 10 Juli 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Pengumuman Perilisan Grok 4."