40-250kW Per Rak: Solusi Pusat Data dengan Kepadatan Ekstrem

Pusat data yang dibangun lima tahun lalu hanya mampu mendinginkan 10kW per rak. Beban kerja AI saat ini membutuhkan minimal 40kW, dengan penerapan generasi berikutnya menargetkan 250kW. Kesenjangan antara infrastruktur yang ada dan kebutuhan modern menciptakan masalah senilai $100 miliar yang dapat dipecahkan dengan rekayasa cerdas.

Sistem NVIDIA GB200 NVL72 mengkonsumsi 140kW dalam konfigurasi rak tunggal.¹ Penerapan Azure terbaru Microsoft secara rutin mencapai 50kW per rak.² Google mendorong kepadatan 60kW dalam pod TPU mereka.³ Infrastruktur yang mendukung cloud masa lalu tidak dapat menangani AI masa depan, dan perusahaan menghadapi pilihan yang sulit: membangun kembali dari awal atau merekayasa solusi kreatif yang menjembatani kesenjangan.

Fisika pendinginan dengan densitas ekstrem

Pendinginan udara tradisional yang ditinggikan gagal total di atas 15kW per rak. Resirkulasi udara panas dapat menciptakan kondisi pelarian termal, di mana suhu menjadi tidak terkendali. Satu rak 40kW menghasilkan panas yang sama dengan 14 pemanas ruangan di rumah yang berjalan terus menerus. Kemas delapan rak ini secara berurutan, dan Anda akan mengelola output termal dari gedung kantor kecil yang dikompresi menjadi 200 kaki persegi.

Para insinyur memecahkan tantangan kepadatan yang ekstrem melalui tiga pendekatan mendasar. Pendinginan cairan langsung membawa cairan pendingin langsung ke sumber panas, menghilangkan 30-40kW per rak dengan penukar panas pintu belakang atau pelat dingin. Pendinginan imersi menenggelamkan seluruh sistem dalam cairan dielektrik, menangani kepadatan 50-100kW sekaligus meniadakan kebutuhan akan kipas. Pendekatan hibrida menggabungkan beberapa teknologi, menggunakan pendingin cair untuk GPU sambil mempertahankan pendingin udara untuk komponen dengan kepadatan lebih rendah.

Matematika mendukung pendinginan cair dengan jelas. Koefisien perpindahan panas air melebihi udara sebanyak 3.500 kali lipat.⁴ Satu galon air dapat menghilangkan panas yang sama dengan 3.000 kaki kubik udara. Sistem berpendingin cairan mencapai peringkat Efektivitas Penggunaan Daya (PUE) 1,02-1,10, dibandingkan dengan 1,4-1,8 untuk pendinginan udara tradisional.⁵ Setiap peningkatan 0,1 dalam PUE menghemat sekitar $ 1 juta per tahun di fasilitas 10MW.⁶

Tantangan distribusi daya berlipat ganda dalam skala besar.

Mengalirkan 250kW ke satu rak membutuhkan desain ulang yang mendasar dari infrastruktur daya. Sirkuit 208V tradisional membutuhkan koneksi 1.200-amp-kabel yang lebih tebal dari lengan manusia. Fasilitas modern menggunakan distribusi 415V atau 480V untuk mengurangi kebutuhan saat ini, tetapi bahkan sistem ini membutuhkan investasi tembaga yang besar. Satu rak 250kW membutuhkan infrastruktur daya yang setara dengan 50 rumah pada umumnya.

Teknisi lapangan Introl secara teratur menemukan fasilitas yang mencoba memperbaiki desain 5kW untuk beban 40kW. Pemutus sirkuit terus-menerus trip. Trafo menjadi terlalu panas. Unit distribusi daya gagal di bawah beban yang tidak pernah dirancang untuk ditangani. Organisasi sering kali menemukan bahwa kapasitas daya total gedung mereka tidak dapat mendukung lebih dari beberapa rak dengan kepadatan tinggi, sehingga memaksa peningkatan utilitas yang mahal yang membutuhkan waktu 18-24 bulan untuk menyelesaikannya.

Desain daya yang cerdas dimulai dengan distribusi DC jika memungkinkan. Arus searah menghilangkan kerugian konversi yang membuang 10-15% daya pada sistem AC tradisional.⁷ Proyek Open Compute Facebook menunjukkan bahwa distribusi DC mengurangi total konsumsi daya sebesar 20% sekaligus meningkatkan keandalan.⁸ Sistem GPU modern semakin mendukung input DC langsung, sehingga menghilangkan beberapa tahap konversi yang menghasilkan panas dan mengurangi efisiensi.

Infrastruktur mekanis membutuhkan penataan ulang secara menyeluruh.

Lantai pusat data standar mendukung 150-250 pound per kaki persegi. Rak 250kW yang terisi penuh memiliki berat lebih dari 8.000 pon, terkonsentrasi hanya dalam 10 kaki persegi.⁹ Penguatan lantai menjadi hal yang wajib dilakukan, dengan biaya tambahan sebesar $50.000-100.000 per rak untuk peningkatan struktural. Zona seismik menghadapi tantangan tambahan, yang membutuhkan sistem isolasi khusus yang mencegah kerusakan peralatan selama gempa bumi.

Pendinginan cairan memperkenalkan kompleksitas mekanis baru. Distribusi cairan pendingin membutuhkan pompa, penukar panas, dan sistem penyaringan yang tidak dimiliki oleh fasilitas tradisional. Penyebaran berpendingin cairan 1MW membutuhkan 400-500 galon per menit aliran cairan pendingin.¹⁰ Deteksi kebocoran menjadi sangat penting - satu kebocoran cairan pendingin dapat menghancurkan peralatan senilai jutaan dolar dalam hitungan detik. Introl menerapkan deteksi kebocoran tiga redundansi dengan katup penutup otomatis yang aktif dalam waktu 100 milidetik setelah mendeteksi kelembapan.

Infrastruktur perpipaan saja merupakan investasi yang sangat besar. Pipa tembaga berharga $30-$50 per kaki linier, dipasang.¹¹ Satu baris rak berpendingin cairan membutuhkan 500-1.000 kaki pipa untuk jalur suplai dan pengembalian. Manifold, katup, dan titik koneksi menambah $ 20.000 - $ 30.000 per rak. Infrastruktur mekanis sering kali lebih mahal daripada peralatan komputasi yang didukungnya.

Arsitektur jaringan beradaptasi dengan kebutuhan kepadatan.

Komputasi dengan kepadatan ekstrem menuntut bandwidth jaringan yang belum pernah ada sebelumnya. Setiap GPU NVIDIA H100 membutuhkan konektivitas jaringan 400Gbps untuk performa optimal.¹² Server 8-GPU membutuhkan bandwidth agregat sebesar 3,2Tbps-lebih besar daripada yang dikonsumsi oleh seluruh pusat data lima tahun lalu. Arsitektur switching top-of-rack tradisional kesulitan untuk memenuhi persyaratan ini.

Penyebaran yang padat mendorong adopsi arsitektur jaringan yang dipilah-pilah. Topologi spine-leaf memberikan latensi dan bandwidth yang konsisten terlepas dari pola lalu lintas. Fotonik silikon memungkinkan koneksi 800 Gbps dan 1,6 Tbps yang tidak dapat dicapai oleh tembaga.¹³ Penerapan Introl semakin banyak menggunakan kabel tembaga sambungan langsung (DAC) untuk koneksi sub-3 meter dan kabel optik aktif (AOC) untuk jangka waktu yang lebih lama, sehingga mengoptimalkan biaya dan konsumsi daya.

Manajemen kabel menjadi sangat kompleks pada kepadatan yang ekstrem. Rak 40-GPU membutuhkan lebih dari 200 kabel untuk daya, jaringan, dan manajemen. Setiap kabel menghasilkan panas melalui hambatan listrik. Manajemen kabel yang buruk membatasi aliran udara, menciptakan titik panas yang memicu pelambatan termal. Teknisi Introl mendedikasikan 20-30% waktu instalasi untuk manajemen kabel, memanfaatkan sistem perutean khusus yang mempertahankan radius tikungan yang tepat sekaligus memaksimalkan efisiensi pendinginan.

Kendala geografis membentuk strategi penyebaran.

Singapura memimpin adopsi kepadatan global dengan fasilitas baru yang dirancang untuk 50-100kW per rak sejak hari pertama.¹⁴ Kelangkaan lahan mendorong ekspansi vertikal dan komputasi maksimum per kaki persegi. Insentif pemerintah mendukung adopsi pendingin cair melalui pengurangan pajak dan perizinan yang dipercepat. Pengantar Kehadiran APAC memposisikan kami di pusat transformasi, dengan teknisi lokal yang memahami persyaratan dan peraturan regional.

Pasar Eropa Utara memanfaatkan iklim dingin untuk mendapatkan keuntungan pendinginan gratis. Pusat data Stockholm memanfaatkan air Laut Baltik yang dingin untuk menolak panas, sehingga mencapai PUE sepanjang tahun di bawah 1.10.¹⁵ Fasilitas Norwegia menggabungkan tenaga air dengan pendinginan alami untuk menciptakan infrastruktur AI yang paling efisien di dunia. Introl mengelola penerapan yang memanfaatkan keunggulan geografis ini dengan tetap mempertahankan standar konektivitas global.

Ketersediaan air semakin menentukan lokasi penempatan. Sistem pendingin cair mengkonsumsi 0,1-0,2 galon per menit per kW kapasitas pendinginan.¹⁶ Fasilitas 10MW membutuhkan 1.000-2.000 galon per menit - cukup untuk mengisi kolam renang Olimpiade setiap lima jam. Lokasi gurun menghadapi pilihan yang mustahil antara inefisiensi pendinginan udara dan kelangkaan air. Organisasi yang berpikiran maju sekarang mengevaluasi hak atas air di samping ketersediaan daya saat memilih lokasi pusat data.

Model ekonomi mendorong keputusan adopsi.

Kasus bisnis untuk infrastruktur dengan kepadatan ekstrem bergantung pada karakteristik beban kerja. Beban kerja pelatihan AI yang berjalan terus menerus selama berminggu-minggu membenarkan investasi apa pun yang meningkatkan efisiensi. Peningkatan kinerja sebesar 1% pada pelatihan selama sebulan dapat menghemat 7,2 jam waktu komputasi. Dengan biaya $40 per GPU-jam untuk instance H100, pengoptimalan yang tampaknya kecil dapat menghasilkan keuntungan yang sangat besar.¹⁷

Perbandingan biaya modal (CapEx) lebih mengunggulkan infrastruktur tradisional, tetapi biaya operasional (OpEx) menunjukkan hal yang berbeda. Pendinginan cair mengurangi konsumsi daya sebesar 30-40% dibandingkan dengan pendinginan udara.¹⁸ Penggunaan 1MW menghemat $400.000-500.000 per tahun untuk biaya listrik saja.¹⁹ Berkurangnya keausan mekanis memperpanjang usia peralatan hingga 20-30%, sehingga dapat menunda biaya penggantian.²⁰ Kepadatan yang lebih tinggi memungkinkan lebih banyak komputasi di fasilitas yang sudah ada, sehingga dapat menghindari biaya pembangunan baru yang rata-rata mencapai $10-15 juta per megawatt.²¹

Model Total Biaya Kepemilikan (TCO) harus memperhitungkan biaya peluang. Organisasi yang tidak dapat menggunakan infrastruktur dengan kepadatan tinggi akan kehilangan keunggulan kompetitif dibandingkan dengan organisasi yang dapat melakukannya. Proses pelatihan GPT OpenAI akan memakan waktu 10 kali lebih lama tanpa infrastruktur yang dioptimalkan.²² Perbedaan antara 40kW dan 100kW per rak menentukan apakah model berlatih dalam hitungan minggu atau bulan. Kepemimpinan pasar semakin bergantung pada kemampuan infrastruktur yang tidak dapat ditangkap oleh metrik tradisional.

Kompleksitas operasional membutuhkan keahlian baru.

Mengelola infrastruktur dengan kepadatan ekstrem menuntut keahlian yang tidak dimiliki oleh tim pusat data tradisional. Sistem pendingin cair membutuhkan keahlian pipa yang jarang ditemukan di departemen TI. Teknisi harus memahami dinamika fluida, perbedaan tekanan, dan kimia pendingin. Kesalahan konfigurasi parameter tunggal dapat menyebabkan kegagalan besar - terlalu banyak tekanan dapat merusak sambungan, sementara terlalu sedikit dapat menyebabkan kavitasi pompa.

Introl mengatasi kesenjangan keahlian melalui program pelatihan khusus untuk 550 teknisi lapangan kami. Tim belajar mendiagnosis masalah aliran cairan pendingin, melakukan pemeliharaan preventif pada unit distribusi pendingin, dan merespons kejadian kebocoran. Program sertifikasi mencakup persyaratan khusus pabrikan untuk berbagai teknologi pendinginan. Tim regional berbagi praktik terbaik melalui basis pengetahuan global kami, memastikan kualitas layanan yang konsisten di semua 257 lokasi.

Sistem pemantauan menghasilkan data 10 hingga 100 kali lebih banyak daripada infrastruktur tradisional. Setiap rak menghasilkan ribuan titik telemetri yang mencakup suhu, tekanan, laju aliran, konsumsi daya, dan kesehatan komponen. Algoritme pembelajaran mesin mengidentifikasi pola yang memprediksi kegagalan sebelum terjadi. Tim operasional Introl menggunakan analitik prediktif untuk menjadwalkan pemeliharaan selama waktu henti yang direncanakan, sehingga mencapai ketersediaan 99,999% untuk beban kerja AI yang kritis.

Teknologi masa depan mendorong batas-batas lebih jauh.

GPU generasi berikutnya akan menuntut infrastruktur yang lebih ekstrem. Peta jalan NVIDIA menunjukkan 1.500-2.000W per GPU pada tahun 2027.²³ Seri MI400 AMD menargetkan konsumsi daya yang serupa.²⁴ Mesin berskala wafer otak sudah mengkonsumsi 23kW dalam satu unit.²⁵ Infrastruktur masa depan harus menangani kepadatan yang tampaknya mustahil dilakukan saat ini.

Pendinginan imersi dua fase muncul sebagai solusi terbaik untuk kepadatan ekstrem. Cairan dielektrik mendidih pada suhu yang dikontrol dengan tepat, memberikan pendinginan isotermal yang mempertahankan komponen pada titik operasi optimal. Perubahan fase dari cairan menjadi uap menyerap panas dalam jumlah yang sangat besar - hingga 250kW per rak.²⁶ Departemen Energi A.S. mendanai penelitian tentang pendinginan dua fase untuk sistem komputasi skala besar.²⁷

Reaktor modular kecil (SMR) dapat menghilangkan kendala daya jaringan. Hyperscalers mengeksplorasi penempatan tenaga nuklir bersama dengan pusat data, menyediakan listrik bebas karbon dengan biaya yang dapat diprediksi. Satu SMR 300MW dapat memberi daya pada 3.000 rak 100kW - cukup untuk 24.000 GPU.²⁸ Persetujuan regulasi masih menjadi tantangan, tetapi keekonomisannya menjadi menarik pada skala yang memadai.

Jalan ke depan menuntut tindakan segera.

Organisasi yang membangun infrastruktur AI menghadapi keputusan penting saat ini yang menentukan posisi kompetitif untuk dekade berikutnya. Retrofit fasilitas yang ada untuk kepadatan 40kW membutuhkan biaya $50.000-$100.000 per rak.²⁹ Membangun infrastruktur berkemampuan 100kW yang baru membutuhkan biaya $200.000-300.000 per rak, namun menyediakan landasan untuk pertumbuhan di masa depan.³⁰ Pilihan yang salah akan mengunci organisasi ke dalam infrastruktur yang sudah usang saat beban kerja AI meledak.

Transisi yang sukses dimulai dengan penilaian yang komprehensif. Tim teknisi Introl mengevaluasi kapasitas daya yang ada, infrastruktur pendingin, dukungan struktural, dan arsitektur jaringan untuk memastikan kinerja yang optimal. Kami mengidentifikasi hambatan yang membatasi peningkatan kepadatan dan mengembangkan rencana peningkatan bertahap yang meminimalkan gangguan. Kehadiran kami secara global memungkinkan penyebaran peralatan dan keahlian khusus secara cepat di mana pun klien membutuhkan solusi kepadatan yang ekstrem.

Pemenang dalam infrastruktur AI adalah mereka yang merangkul kepadatan yang ekstrem, bukan melawannya. Setiap bulan penundaan berarti para pesaing melatih model lebih cepat, menerapkan fitur lebih cepat, dan merebut pasar lebih dulu. Pertanyaannya bukanlah apakah akan mengadopsi infrastruktur dengan kepadatan tinggi, tetapi seberapa cepat organisasi dapat mengubah fasilitas mereka untuk mendukung kebutuhan komputasi yang menentukan keunggulan kompetitif di era AI.

Referensi

  1. NVIDIA. "Sistem Rak Berpendingin Cairan NVIDIA DGX GB200 NVL72." NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/

  2. Microsoft Azure. "Inovasi Infrastruktur untuk Beban Kerja AI." Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/

  3. Google Cloud. "TPU v5p: Cloud TPU Pod untuk Model Bahasa Besar." Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p

  4. ASHRAE. "Sifat Termal Air vs Udara dalam Aplikasi Pusat Data." Komite Teknis ASHRAE 9.9, 2024.

  5. Uptime Institute. "Survei Pusat Data Global 2024: Tren PUE." Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024

  6. Lawrence Berkeley National Laboratory. "Analisis Biaya-Manfaat Efisiensi Energi Pusat Data." LBNL, 2023. https://datacenters.lbl.gov/resources

  7. Open Compute Project. "Analisis Manfaat Distribusi Daya DC." OCP Foundation, 2023. https://www.opencompute.org/projects/dc-power

  8. ---. "Laporan Efisiensi Pusat Data Facebook Prineville." OCP Foundation, 2023. https://www.opencompute.org/datacenter/prineville

  9. Schneider Electric. "Panduan Berat Rak Densitas Tinggi dan Pemuatan Lantai." Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/

  10. Vertiv. "Panduan Desain Pendinginan Cairan untuk Infrastruktur AI." Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/

  11. RSMeans. "Data Biaya Mekanik 2024: Sistem Perpipaan." Gordian RSMeans Data, 2024.

  12. NVIDIA. "Whitepaper Arsitektur GPU NVIDIA H100 Tensor Core GPU." NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet

  13. Intel. "Silicon Photonics: Terobosan dalam Konektivitas Pusat Data." Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html

  14. Otoritas Pengembangan Media Infocomm. "Peta Jalan Pusat Data Singapura 2024." IMDA Singapura, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap

  15. DigiPlex. "Pusat Data Stockholm: Inovasi Pendinginan Berkelanjutan." DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter

  16. ASHRAE. "Panduan Pendinginan Cairan untuk Pusat Data, Edisi ke-2." Komite Teknis ASHRAE 9.9, 2024.

  17. Layanan Web Amazon. "Penetapan Harga Instance EC2 P5." AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/

  18. Dell Technologies. "Analisis ROI Pendinginan Cairan Langsung." Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm

  19. Administrasi Informasi Energi A.S. (U.S. Energy Information Administration). "Tarif Listrik Komersial menurut Negara Bagian." EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php

  20. Submer. "Dampak Pendinginan Perendaman pada Studi Umur Panjang Perangkat Keras." Submer, 2023. https://submer.com/resources/hardware-longevity-study/

  21. JLL. "Panduan Biaya Konstruksi Pusat Data 2024." Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs

  22. OpenAI. "Persyaratan Infrastruktur Pelatihan GPT-4." OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure

  23. NVIDIA. "Pembaruan Peta Jalan GPU Multi-Tahun." Keynote NVIDIA GTC 2024, Maret 2024.

  24. AMD. "Pra-Pengumuman Seri Instinct MI400." AMD Investor Day, Juni 2024.

  25. Otak. "Spesifikasi Mesin Timbangan Wafer CS-3." Cerebras Systems, 2024. https://www.cerebras.net/product-chip/

  26. 3M. "Pendinginan Perendaman Dua Fase Novec untuk Pusat Data." 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/

  27. Departemen Energi Amerika Serikat. "Proyek Komputasi Exascale: Inovasi Pendinginan." Kantor Ilmu Pengetahuan DOE, 2024. https://www.exascaleproject.org/cooling-research/

  28. NuScale Power. "Aplikasi SMR untuk Daya Pusat Data." NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers

  29. Gartner. "Analisis Biaya Modernisasi Pusat Data 2024." Gartner, Inc, 2024.

  30. ---. "Ekonomi Konstruksi Pusat Data AI Greenfield." Gartner, Inc, 2024.

Sebelumnya
Sebelumnya

Google TPU v6e vs GPU: Panduan Performa AI 4x Lebih Baik Per Dolar

Berikutnya
Berikutnya

Kesepakatan OpenAI-NVIDIA senilai $100 miliar: Infrastruktur AI 10 Gigawatt