Bagaimana Isambard-AI Menerapkan 5.448 GPU dalam 4 Bulan: Cetak Biru Baru untuk Infrastruktur AI

Masuklah ke dalam gudang yang telah dikonversi di National Composites Centre di Bristol dan Anda akan menemukan 150 ton perangkat keras komputasi canggih yang berdengung di balik lemari berpendingin cairan: Isambard-AI, superkomputer kecerdasan buatan paling canggih di Inggris. Tentu saja, berita utama merayakan 21 exaflops performa AI-nya, namun inilah yang mereka lewatkan: tantangan infrastruktur luar biasa yang berhasil diatasi oleh tim untuk menghadirkan proyek senilai £225 juta ini secara online hanya dalam waktu 24 bulan. Lima tahun yang lalu? Garis waktu yang mustahil.

Penyebaran 5.448 NVIDIA Grace Hopper Superchip dari Isambard-AI menunjukkan perkembangan yang signifikan. Kesuksesan dalam komputasi AI kini bergantung lebih dari sekadar membeli GPU. Anda harus menguasai ekosistem kompleks dari daya, pendinginan, jaringan, dan logistik yang dibutuhkan oleh infrastruktur AI modern. Organisasi yang merencanakan penggunaan GPU berskala besar harus lebih memahami tantangan-tantangan ini dan keahlian khusus yang diperlukan untuk mengatasinya.

Ketika 5 megawatt bertemu dengan 150 ton silikon

Skala Isambard-AI mendobrak pemikiran pusat data tradisional. Masing-masing dari 12 kabinet HPE Cray EX4000 menampung 440 GPU, menghasilkan kepadatan panas yang dapat melelehkan sistem konvensional. Pendinginan udara tradisional tidak dapat mencapai lebih dari 20kW per rak. Isambard-AI? Lebih dari 400kW per kabinet. Solusinya adalah 100% pendinginan cairan langsung, tetapi mengimplementasikannya membutuhkan keahlian yang sama sekali baru.

"Apa yang kami lihat dengan penerapan seperti Isambard-AI adalah pergeseran mendasar dalam hal keahlian pusat data," lanskap penerapan infrastruktur mengungkapkan. Perusahaan yang dulunya berfokus pada operasi rack-and-stack tradisional kini membutuhkan teknisi yang memahami dinamika pendinginan cair, manajemen kabel dengan kepadatan tinggi, dan cara menugaskan ribuan GPU secara bersamaan. Tim University of Bristol bekerja sama dengan mitra penerapan khusus untuk memasang lebih dari 40.000 koneksi serat optik. Jumlah tersebut cukup untuk mengelilingi sebuah kota kecil. Dan mereka harus mempertahankan presisi yang diperlukan untuk interkoneksi NVLink generasi ke-5 sistem yang beroperasi pada kecepatan 1,8TB/s.

Inilah yang menarik: proyek ini berubah dari penandatanganan kontrak menjadi status operasional dalam waktu kurang dari empat bulan. Bagaimana caranya? Perusahaan penyedia infrastruktur GPU khusus kini dapat mengerahkan ratusan teknisi terampil dalam waktu 72 jam. Mereka bukanlah kontraktor TI tradisional. Mereka adalah tim khusus yang mengetahui spesifikasi torsi spesifik untuk koneksi pendingin cair dan urutan optimal untuk membawa ribuan GPU online tanpa membebani sistem daya.

Kompleksitas tersembunyi dari infrastruktur yang mengutamakan AI

Superkomputer tradisional dipasang untuk beban kerja AI. Isambard-AI dirancang dari awal untuk aplikasi kecerdasan buatan. Pendekatan mereka yang mengutamakan AI memengaruhi setiap keputusan infrastruktur. Tim memilih desain pusat data modular HPE dan merakitnya di tempat hanya dalam waktu 48 jam. Mereka memilih catu daya nol-karbon yang selaras dengan peringkat global ke-4 sistem untuk efisiensi energi.

Infrastruktur jaringannya saja sudah mewakili sebuah prestasi koordinasi teknik yang masif. Jaringan HPE Slingshot 11 sistem menyediakan bandwidth dua arah sebesar 25,6 Tb/s di 64 port, dengan setiap node menerima bandwidth injeksi jaringan sebesar 800 Gbps. Menginstal dan memvalidasi jaringan koneksi yang kompleks ini membutuhkan keahlian khusus dalam jaringan berkinerja tinggi yang jauh melampaui penerapan perusahaan pada umumnya. Spesialis infrastruktur GPU modern perlu memahami lapisan fisik DAN bagaimana topologi interkoneksi yang berbeda memengaruhi kinerja beban kerja AI.

Penyaluran daya menciptakan tantangan tersendiri. Meskipun total daya fasilitas 5MW Isambard-AI mungkin tampak sederhana dibandingkan dengan pusat data skala besar, kepadatan dan kekritisan pengiriman daya ini menciptakan persyaratan yang unik. Setiap Grace Hopper Superchip menuntut pengiriman daya yang tepat. Dengan 5.448 di antaranya beroperasi secara bersamaan, bahkan fluktuasi kecil pun dapat menyebabkan ketidakstabilan sistem. Tim penerapan menerapkan sistem manajemen daya yang canggih dengan kemampuan pemantauan waktu nyata yang dapat mendeteksi dan merespons anomali dalam hitungan milidetik.

Belajar dari perlombaan infrastruktur AI di Eropa

Penyebaran Isambard-AI terjadi ketika negara-negara Eropa bersaing secara intens untuk mendapatkan supremasi AI. Sistem LUMI Finlandia menawarkan 380 petaflops daya komputasi tradisional. Superkomputer Jupiter yang akan datang dari Jerman menjanjikan untuk menjadi sistem exascale pertama di Eropa. Namun, Isambard-AI mencapai status operasional lebih cepat daripada rekan-rekannya di Eropa. Proyek ini bergerak dari proposal awal hingga beroperasi secara keseluruhan dalam waktu kurang dari dua tahun. Bandingkan dengan jangka waktu 4-5 tahun untuk sistem yang sebanding.

Keunggulan kecepatan ini sebagian berasal dari proses pengadaan yang disederhanakan di Inggris pasca Brexit. Namun yang lebih penting lagi, hal ini berasal dari evolusi metodologi penyebaran GPU. Instalasi superkomputer tradisional mengikuti fase-fase berurutan: infrastruktur, lalu perangkat keras, lalu jaringan, lalu perangkat lunak. Penerapan GPU modern memanfaatkan alur kerja paralel. Tim khusus bekerja secara bersamaan pada instalasi pendingin cair, commissioning GPU, dan konfigurasi jaringan, yang secara dramatis memampatkan jadwal.

Kontras dengan penerapan di Eropa lainnya memberikan pelajaran berharga. MareNostrum 5 dari Spanyol, meskipun memiliki spesifikasi yang mengesankan, membutuhkan perkuatan ekstensif pada fasilitas yang ada. Sistem Leonardo Italia mengalami penundaan dalam mengintegrasikan kemampuan akselerasi AI-nya. Keberhasilan Isambard-AI menunjukkan bahwa infrastruktur AI yang dibuat khusus, yang digunakan oleh tim dengan keahlian GPU tertentu, dapat mencapai waktu yang lebih cepat untuk mendapatkan ilmu pengetahuan daripada sistem HPC yang dipasang ulang.

Kesenjangan keahlian yang mengancam ambisi AI

Organisasi di seluruh dunia berlomba untuk menerapkan infrastruktur AI, tetapi kesenjangan keterampilan yang kritis telah muncul. Teknisi pusat data tradisional, betapapun berpengalamannya, sering kali tidak memiliki pengetahuan khusus yang diperlukan untuk penerapan GPU modern. Sistem pendingin cair membutuhkan pemahaman tentang dinamika fluida dan manajemen termal. Konfigurasi GPU dengan kepadatan tinggi menuntut keahlian dalam pengiriman daya dan pengoptimalan aliran udara yang melampaui penerapan server konvensional.

Kesenjangan keahlian ini paling terasa di beberapa area. Manajemen kabel untuk cluster GPU telah menjadi disiplin ilmu khusus. Ribuan koneksi berkecepatan tinggi Isambard-AI membutuhkan perutean yang tepat untuk menjaga integritas sinyal sekaligus memungkinkan akses pemeliharaan. Teknisi daya dan pendingin tidak hanya perlu memahami persyaratan kondisi tunak, tetapi juga perilaku dinamis beban kerja AI yang dapat berubah dari kondisi diam ke daya penuh dalam hitungan milidetik.

Perusahaan seperti introl.com telah muncul untuk mengisi kekosongan ini, mengembangkan tim khusus yang menggabungkan keahlian pusat data tradisional dengan keahlian khusus GPU. Penerapan sistem mereka yang melebihi 1.000 node GPU menunjukkan skala di mana spesialis infrastruktur generasi baru ini beroperasi. Kemampuan untuk memobilisasi 40 teknisi dalam waktu seminggu, seperti yang terlihat pada penerapan penyedia cloud GPU besar baru-baru ini, menunjukkan kemampuan operasional baru yang tidak ada di industri pusat data tradisional.

Di luar penerapan: mempertahankan keunggulan infrastruktur AI

Tantangannya tidak berakhir ketika GPU terakhir dinyalakan. Mempertahankan sistem seperti Isambard-AI membutuhkan pengoptimalan yang berkelanjutan dan manajemen yang proaktif. Tim University of Bristol menerapkan sistem pemantauan canggih yang melacak segala sesuatu mulai dari pola penggunaan GPU hingga laju aliran pendingin. Dengan ruang alamat memori terpadu sebesar 850GB per node, inefisiensi kecil sekalipun dapat berdampak signifikan terhadap produktivitas penelitian.

Infrastruktur GPU modern menuntut pendekatan DevOps pada sistem fisik. Pembaruan firmware harus diatur dengan hati-hati di ribuan perangkat oleh tim teknisi. Sistem pendingin memerlukan pemeliharaan prediktif berdasarkan pola penggunaan dan kondisi lingkungan. Konfigurasi jaringan memerlukan penyetelan berkelanjutan untuk mengoptimalkan pola beban kerja yang terus berkembang. Kompleksitas operasional ini mendorong pengembangan model layanan khusus di mana mitra infrastruktur menyediakan pengoptimalan berkelanjutan daripada penerapan satu kali.

Implikasi ekonominya sangat besar. Setiap Grace Hopper Superchip mewakili investasi modal yang signifikan. Waktu menganggur secara langsung berdampak pada laba atas investasi. Organisasi yang menggunakan cluster GPU besar semakin bergantung pada mitra yang tidak hanya menyediakan instalasi tetapi juga layanan pengoptimalan yang berkelanjutan. Kemampuan untuk mempertahankan tingkat pemanfaatan 95%+, seperti yang ditargetkan oleh penerapan infrastruktur AI terkemuka, membutuhkan perhatian terus-menerus terhadap penjadwalan beban kerja, alokasi sumber daya, dan kesehatan sistem.

Memetakan masa depan infrastruktur AI

Keberhasilan penerapan Isambard-AI memberikan pelajaran penting bagi organisasi yang merencanakan inisiatif infrastruktur AI mereka sendiri. Pertama, era memperlakukan GPU sebagai komponen server sederhana telah berakhir. Sistem AI modern membutuhkan pemikiran holistik tentang daya, pendinginan, jaringan, dan operasi dari tahap perencanaan paling awal. Kedua, jadwal yang dipadatkan yang dicapai oleh Isambard-AI (dari konsep hingga operasi dalam waktu kurang dari dua tahun) menjadi standar baru, tetapi hanya untuk organisasi yang bermitra dengan tim penerapan khusus.

Ke depannya, tantangan infrastruktur akan semakin meningkat. Arsitektur Blackwell dari NVIDIA menjanjikan kepadatan daya yang lebih tinggi, dengan beberapa konfigurasi melebihi 1.000W per GPU. Pendinginan cair akan beralih dari opsi lanjutan menjadi kebutuhan mutlak. Kebutuhan bandwidth jaringan akan terus bertambah secara eksponensial seiring dengan ukuran model yang mencapai 10 triliun parameter. Organisasi yang tidak memiliki akses ke keahlian infrastruktur GPU khusus akan semakin tidak mampu bersaing dalam revolusi AI.

Investasi Inggris di Isambard-AI mewakili lebih dari sekadar pencapaian teknis. Ini adalah cetak biru tentang bagaimana negara dan organisasi dapat dengan cepat menerapkan infrastruktur AI kelas dunia. Dengan menggabungkan fasilitas yang dibuat khusus, proses pengadaan yang efisien, dan kemitraan dengan tim penerapan khusus, proyek ini menunjukkan bahwa tantangan infrastruktur di era AI, meskipun berat, jauh dari tidak dapat diatasi. Bagi mereka yang bersedia berinvestasi dalam keahlian dan kemitraan yang tepat, jalan dari ambisi menuju superkomputer AI operasional tidak pernah semudah ini.

Universitas, perusahaan, dan pemerintah di seluruh dunia sedang mempertimbangkan investasi infrastruktur AI mereka sendiri. Isambard-AI menjadi bukti bahwa dengan pendekatan yang tepat dan mitra yang tepat, penerapan GPU yang paling ambisius sekalipun dapat beralih dari proposal ke produksi dengan kecepatan inovasi. Pertanyaannya bukan lagi apakah akan membangun infrastruktur AI, tetapi apakah Anda memiliki akses ke keahlian khusus yang diperlukan untuk melakukannya dengan benar.

Referensi

Alliance Chemical. "Revolusi Pendinginan GPU AI: Air Deionisasi, Etilen Glikol & Propilena." Alliance Chemical. Diakses pada 1 Agustus 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol mulai beroperasi dengan superkomputer AI Inggris." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "Pemerintah Inggris menjanjikan £ 225 juta untuk mendanai pembangunan superkomputer AI Universitas Bristol dengan HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Pengetahuan Pusat Data. "Pendinginan Cairan Langsung ke Chip: Mengoptimalkan Efisiensi Pusat Data." Pengetahuan Pusat Data. Diakses pada 1 Agustus 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

Usaha Bersama EuroHPC. "Peresmian MareNostrum 5: Eropa menyambut superkomputer kelas dunia yang baru." 21 Desember 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

Usaha Bersama EuroHPC. "MareNostrum5: superkomputer kelas dunia EuroHPC baru di Spanyol." 16 Juni 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "Tinjauan Teknis JUPITER." Diakses pada 1 Agustus 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Peluang peluncuran Sovereign AI AIRR: panggilan untuk para peneliti." Diakses pada 1 Agustus 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "Pemerintah Inggris menginvestasikan £225 juta untuk menciptakan superkomputer AI terkuat di Inggris bersama University of Bristol dan Hewlett Packard Enterprise." Siaran pers, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol akan Menjadi Tuan Rumah Superkomputer Isambard-AI, Menandai Era Baru dalam AI dan HPC." HPCwire. Diakses pada 1 Agustus 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "Semua Tentang GPU NVIDIA Blackwell: Arsitektur, Fitur, Spesifikasi Chip." Diakses pada 1 Agustus 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." Direktori IBM PartnerPlus. Diakses pada 1 Agustus 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Pengantar. "Penerapan Infrastruktur GPU | Optimalkan Penerapan GPU Anda." Diakses pada 1 Agustus 2025. https://introl.com/gpu-infrastructure-deployments.

Perkenalan. "Introl - Pakar Penerapan Infrastruktur GPU & Pusat Data." Diakses pada 1 Agustus 2025. https://introl.com.

Perkenalan. "Intro | Infrastruktur GPU, Solusi Pusat Data & Penerapan HPC." Diakses pada 1 Agustus 2025. https://introl.com/blog.

IT Pro. "Di dalam Isambard-AI: Superkomputer terkuat di Inggris." IT Pro. Diakses pada 1 Agustus 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Diakses pada 1 Agustus 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "Apa itu Pendinginan Cairan Langsung untuk Pusat Data AI?" Diakses pada 1 Agustus 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch untuk Komunikasi Multi-GPU Tingkat Lanjut." Diakses pada 1 Agustus 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "Mesin di Balik Pabrik AI | Arsitektur NVIDIA Blackwell." Diakses pada 1 Agustus 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

Blog NVIDIA. "Platform NVIDIA Blackwell Meningkatkan Efisiensi Air Lebih dari 300x." Diakses pada 1 Agustus 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: superkomputer kelas kepemimpinan yang dioptimalkan secara khusus untuk Kecerdasan Buatan." Oktober 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "Superkomputer Isambard-AI senilai $300 juta dari Inggris resmi diluncurkan." SDxCentral. Diakses pada 1 Agustus 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Momen pendinginan cair datang berkat AI." TechTarget. Diakses pada 1 Agustus 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

Insinyur. "Superkomputer AI Isambard diluncurkan di Bristol." The Engineer. Diakses pada 1 Agustus 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

Penelitian dan Inovasi Inggris. "£300 juta untuk meluncurkan tahap pertama Sumber Daya Penelitian AI baru." Diakses pada 1 Agustus 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

Universitas Bristol. "2023: Isambard AI Bristol." Institut Cabot untuk Lingkungan Hidup. Diakses pada 1 Agustus 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

Universitas Bristol. "Juli: Superkomputer terkuat di Inggris diluncurkan di Bristol." Berita dan fitur, Juli 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

Universitas Bristol. "November: Investasi senilai 225 juta poundsterling yang belum pernah terjadi sebelumnya untuk menciptakan superkomputer terkuat di Inggris." Berita dan fitur, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (mikroarsitektur)." Diakses pada 1 Agustus 2025. https://en.wikipedia.org/wiki/Blackwell_(mikroarsitektur).

Wikipedia. "LUMI." Diakses pada 1 Agustus 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: superkomputer kelas kepemimpinan yang dioptimalkan secara khusus untuk Kecerdasan Buatan." arXiv pracetak arXiv: 2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

Sebelumnya
Sebelumnya

Revolusi AI Indonesia: Bagaimana Ekonomi Terbesar di Asia Tenggara Menjadi Pusat Kekuatan AI Global

Berikutnya
Berikutnya

Grok 4 Baru Saja Menghancurkan Langit-langit AI-Sinilah Alasannya Mengapa Hal Itu Mengubah Segalanya