Mengapa NVIDIA GB300 NVL72 (Blackwell Ultra) Penting đŸ€”

NVIDIA menggabungkan 72 GPU Blackwell Ultra dan 36 CPU Grace ke dalam unit skala rak berpendingin cairan yang menarik daya sekitar 120 kW dan menghasilkan 1,1 exaFLOPS komputasi FP4 dengan GB300 NVL72-1,5x lebih banyak kinerja AI daripada GB200 NVL72 yang asli (NVIDIA, 2025). Kabinet tunggal tersebut mengubah setiap asumsi tentang daya, pendinginan, dan pemasangan kabel di dalam pusat data modern. Inilah yang dipelajari oleh para teknisi penerapan saat mereka mempersiapkan lokasi untuk pengiriman GB300 NVL72 produksi pertama.

1. Membedah rak

KomponenJumlahKunci spesifikasi Penarikan dayaSumberGrace-Blackwell baki komputasi18 ~ 6,5 kW masing-masing117 kW totalSupermicro 2025Baki sakelar NVLink-59130 TB/s kain agregat3,6 kW totalSupermicro 2025Rak daya8132 kW total keluaran DC0,8 kW overheadSupermicro 2025Bluefield-3 DPU18Penyimpanan & pembongkaran keamananTermasuk dalam komputasiDaftar 2024

Kabinet ini memiliki berat sekitar 1,36 t (3.000 lb) dan menempati tapak yang sama dengan rak 42U konvensional (The Register, 2024). GB300 NVL72 mewakili Blackwell Ultra, menampilkan GPU B300 yang disempurnakan dengan memori HBM3e 288 GB per GPU (50% lebih banyak dari B200 asli 192 GB) yang dicapai melalui tumpukan HBM3e setinggi 12, bukan 8. Setiap superchip kini memasangkan empat GPU B300 dengan dua CPU Grace, dibandingkan dengan konfigurasi dua GPU sebelumnya. Setiap superchip Grace-Blackwell memasangkan 72 inti GPU Blackwell Ultra pada 2,6 GHz dengan CPU Arm Neoverse V2 128 inti yang berjalan pada frekuensi dasar 3,1 GHz. Memori HBM3e terintegrasi menghasilkan 8 TB/s per GPU dengan kapasitas 288 GB.

Wawasan lapangan: Pusat gravitasi rak berada 18% lebih tinggi daripada server standar karena penempatan sumber daya komputasi yang padat di baki atas. Praktik terbaik saat ini merekomendasikan penahan rel pemasangan dengan baut M12, daripada mur sangkar standar, untuk mengatasi getaran mikro yang diamati selama operasi beban penuh.

2. Memberi makan binatang: pengiriman daya

An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.

Perbandingan topologi tegangan:

  • 208V/60Hz: Arus saluran 335A, membutuhkan tembaga 4/0 AWG (107mmÂČ)

  • 415V/50-60Hz: Arus saluran 168A, hanya membutuhkan tembaga 70mmÂČ

  • 480V / 60Hz: Arus saluran 145A, penyebaran minimal di Amerika Utara

Praktik terbaik industri melibatkan penyediaan umpan tiga fase 415V ganda per rak melalui konektor 160A IEC 60309. Pilihan ini mengurangi kerugian IÂČR hingga 75% dibandingkan dengan 208V sambil mempertahankan kompatibilitas dengan standar fasilitas Eropa. Pengukuran lapangan menunjukkan bahwa panel pemutus biasanya tetap berada di bawah 85% penurunan panas di ruangan bersuhu 22°C.

Mitigasi harmonik: Rak GB300 NVL72 menunjukkan distorsi harmonik total sebesar 4,8% di bawah beban pelatihan AI yang khas. Penyebaran yang melebihi delapan rak biasanya memerlukan penyearah 12 pulsa pada transformator khusus untuk mempertahankan kepatuhan IEEE 519.

3. Buku pedoman pendinginan: Realitas Rekayasa Termal

Setiap die GPU Blackwell Ultra berukuran 744 mmÂČ dan mengeluarkan daya hingga 1.000 W melalui antarmuka pelat dinginnya. CPU Grace menambahkan 500W lagi pada 128 core-nya. Program IR7000 Dell memposisikan cairan sebagai jalur default untuk perlengkapan kelas Blackwell, mengklaim kapasitas per rak hingga 480 kW dengan penukar panas pintu belakang tertutup (Dell Technologies, 2024).

Hirarki termal yang direkomendasikan:

  • ≀80 kW / rak: Penukar panas pintu belakang dengan air suplai 18°C, laju aliran 35 L/menit

  • 80-132 kW/rak: Wajib menggunakan loop direct-to-chip (DTC), suplai 15°C, minimum 30 L/menit

  • 132 kW/rak: Diperlukan konfigurasi pendinginan imersi atau rak terpisah

Spesifikasi DTC dari penerapan di lapangan:

  • Cold plate ΔT: 12-15°C pada beban penuh (suhu sambungan GPU 83-87°C)

  • Penurunan tekanan: 2,1 bar di seluruh loop lengkap dengan 30% propilen glikol

  • Distribusi aliran: ±3% varians di seluruh 72 pelat dingin GPU

  • Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)

Wawasan kritis: Jaringan pengiriman daya Blackwell Ultra menunjukkan transien berskala mikrodetik, mencapai 1,4 kali daya kondisi tunak selama sinkronisasi gradien. Praktik industri merekomendasikan ukuran pendinginan sebesar 110% dari TDP terukur untuk menangani lonjakan termal ini tanpa pelambatan GPU.

4. Fabric jaringan: mengelola NVLink 5.0 dan konektivitas yang ditingkatkan

Setiap GB300 NVL72 berisi 72 GPU Blackwell Ultra dengan NVLink 5.0, menyediakan bandwidth 1,8 TB/s per GPU dan total bandwidth NVLink 130 TB/s di seluruh sistem. NVLink generasi kelima beroperasi pada kecepatan pensinyalan 200 Gbps per tautan, dengan 18 tautan per GPU. Sembilan chip NVSwitch merutekan lalu lintas ini dengan latensi sakelar 300 nanodetik dan mendukung pola komunikasi GPU-ke-GPU 576 arah.

Konektivitas antar-rak kini dilengkapi dengan ConnectX-8 SuperNIC yang menyediakan konektivitas jaringan 800 Gb/s per GPU (dua kali lipat dari 400 Gb/s generasi sebelumnya), yang mendukung platform NVIDIA Quantum-X800 InfiniBand dan Spectrum-X Ethernet.

Arsitektur pemasangan kabel:

  • Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)

  • Antar-rak: 90 port QSFP112 melalui transceiver 800G melalui OM4 MMF

  • Penyimpanan/pengelolaan: 18 DPU Bluefield-3 dengan masing-masing dua tautan 800G

Pengukuran lapangan:

  • Anggaran optik: Anggaran kerugian penyisipan 1,5 dB pada bentang OM4 150m

  • BER performance: <10⁻Âč⁔ sustained over 72‑hour stress tests

  • Kepadatan konektor: 1.908 terminasi per rak (termasuk daya)

Praktik terbaik melibatkan pengiriman rakitan trunk 144 serat yang sudah diakhiri dengan polesan APC dan memverifikasi setiap konektor dengan pengujian insertion-loss/return-loss sesuai standar TIA-568. Kru dua orang yang berpengalaman dapat menyelesaikan instalasi serat GB300 NVL72 dalam 2,8 jam rata-rata - turun dari 7,5 jam ketika teknisi membangun kabel di tempat.

Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.

5. Daftar periksa penerapan yang telah teruji di lapangan

Persyaratan struktural:

  • Pembebanan lantai: sertifikasi ≄14 kN/mÂČ (2.030 psf); berat terdistribusi melebihi sebagian besar fasilitas lama

  • Penguat seismik: Instalasi Zona 4 memerlukan tambahan penyangga X sesuai IBC 2021

  • Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors

Infrastruktur listrik:

  • Dual feed 415V, masing-masing 160A, dengan pemantauan sirkuit cabang Schneider PM8000

  • Ukuran UPS: 150 kVA per rak (margin keamanan 125%) dengan topologi konversi ganda online

  • Grounding: Isolated equipment ground with <1Ω resistance to facility MGB

Spesifikasi pendinginan:

  • Coolant quality: <50 ”S/cm conductivity, 30% propylene glycol, pH 8.5–9.5

  • Penggantian filter: 5 ”m dilipat setiap 1.000 jam, 1 ”m terakhir setiap 2.000 jam

  • Deteksi kebocoran: Sensor cairan konduktif pada semua alat kelengkapan QDC dengan sensitivitas 0,1 mL

Persediaan suku cadang:

  • Satu baki NVSwitch (waktu tunggu: 6 minggu)

  • Dua kartrid pompa CDU (MTBF: 8.760 jam)

  • 20 transceiver QSFP112 (tingkat kegagalan di lapangan: 0,02% per tahun)

  • Bahan antarmuka termal darurat (Honeywell PTM7950, tabung 5g)

SLA jarak jauh: Respons di tempat selama 4 jam menjadi standar industri-mitra penerapan terkemuka mempertahankan target ini di berbagai negara dengan >99% waktu aktif.

6. Karakterisasi kinerja di bawah beban produksi

Tolok ukur penalaran AI (dari laporan penerapan awal):

  • Model DeepSeek R1-671B: Throughput berkelanjutan hingga 1.000 token/detik

  • Model parameter GPT-3 175B: Rata-rata 847 token/detik/GPU

  • Difusi Stabil 2.1: 14,2 gambar/detik pada resolusi 1024×1024

  • Pelatihan ResNet-50 ImageNet: 2.340 sampel/detik throughput berkelanjutan

Peningkatan efisiensi daya:

  • Pemanfaatan rak tunggal: 1,42 GFLOPS/Watt pada pemanfaatan GPU 95%

  • Cluster 10 rak: 1,38 GFLOPS/Watt (overhead pendinginan mengurangi efisiensi)

  • Daya idle jaringan: 3,2 kW per rak (NVSwitch + transceiver)

Peningkatan kinerja penalaran AI: GB300 NVL72 memberikan peningkatan 10x lipat dalam token per detik per pengguna dan peningkatan 5x lipat dalam TPS per megawatt dibandingkan dengan Hopper, menghasilkan potensi peningkatan 50x lipat dalam kinerja output pabrik AI.

Efek siklus termal: Setelah 2.000 jam operasi produksi, penggunaan awal melaporkan penurunan performa sebesar 0,3% karena pemompaan material antarmuka termal. Penggantian TIM terjadwal dengan interval 18 bulan mempertahankan kinerja puncak.

7. Analisis TCO cloud versus on-prem

Lambda menawarkan GPU B200 dengan harga mulai dari $2,99 per jam GPU dengan komitmen multi-tahun (Lambda 2025). Pemodelan keuangan yang menggabungkan biaya fasilitas nyata dari penerapan industri menunjukkan:

Rincian biaya per rak selama 36 bulan:

  • Belanja Modal Perangkat Keras: $3,7-4,0 juta (termasuk suku cadang dan perkakas) untuk GB300 NVL72

  • Daya fasilitas: $310 ribu @ $0,08/kWh dengan pemanfaatan rata-rata 85%

  • Infrastruktur pendingin: $180 ribu (CDU, pipa ledeng, kontrol)

  • Staf operasional: $240 ribu (biaya 0,25 FTE yang terisi penuh)

  • Total: $ 4,43-4,73 juta vs $ 4,7 juta setara cloud

Titik impas terjadi pada tingkat pemanfaatan rata-rata 67% selama 18 bulan, dengan mempertimbangkan depresiasi, pembiayaan, dan biaya peluang. CFO perusahaan mendapatkan prediktabilitas anggaran sekaligus menghindari penguncian vendor cloud.

8. GB300 vs GB200: Memahami Blackwell Ultra

Gambar GB200 generasi sebelumnya

GB300 NVL72 (Blackwell Ultra) merupakan evolusi yang signifikan dari GB200 NVL72 yang asli. Peningkatan utama termasuk kinerja komputasi AI 1,5x lebih banyak, memori HBM3e 288 GB per GPU (vs 192 GB), dan peningkatan fokus pada inferensi penskalaan waktu pengujian untuk aplikasi penalaran AI.

Arsitektur baru ini memberikan peningkatan 10x lipat dalam token per detik per pengguna dan peningkatan 5x lipat dalam TPS per megawatt dibandingkan dengan Hopper, menghasilkan potensi peningkatan 50x lipat dalam output pabrik AI. Hal ini membuat GB300 NVL72 secara khusus dioptimalkan untuk era penalaran AI yang sedang berkembang, di mana model seperti DeepSeek R1 membutuhkan lebih banyak komputasi selama inferensi untuk meningkatkan akurasi.

Jadwal ketersediaan: Sistem GB300 NVL72 diharapkan tersedia dari para mitra pada paruh kedua tahun 2025, dibandingkan dengan GB200 NVL72 yang sudah tersedia saat ini.

9. Mengapa Fortune 500 Memilih Mitra Penerapan Khusus

Spesialis penerapan terkemuka telah memasang lebih dari 100.000 GPU di lebih dari 850 pusat data, mempertahankan perjanjian tingkat layanan global (SLA) selama 4 jam melalui tim teknik lapangan yang ekstensif. Industri ini telah menugaskan ribuan mil fiber dan beberapa megawatt infrastruktur AI khusus sejak tahun 2022.

Metrik penyebaran terbaru:

  • Rata-rata waktu persiapan lokasi: 6,2 minggu (turun dari rata-rata industri 11 minggu)

  • Tingkat keberhasilan percobaan pertama: 97,3% untuk pengujian penyalaan

  • Masalah pascapenerapan: 0,08% tingkat kegagalan komponen dalam 90 hari pertama

OEM mengirimkan perangkat keras; mitra khusus mengubah perangkat keras menjadi infrastruktur produksi. Melibatkan tim penerapan yang berpengalaman selama fase perencanaan dapat mengurangi jadwal hingga 45% melalui penggunaan harness daya prefabrikasi, loop pendinginan pra-tahap, dan bundel serat yang diputus dari pabrik.

Pikiran perpisahan

Kabinet GB300 NVL72 mewakili pergeseran mendasar dari "server dalam rak" menjadi "pusat data dalam kabinet." Fisika tidak kenal ampun: Kepadatan komputasi 120 kW menuntut ketepatan dalam setiap koneksi daya, loop pendingin, dan terminasi serat. Kuasai dasar-dasar teknik pada Hari ke-0, dan Blackwell Ultra akan memberikan kinerja penalaran AI yang transformatif untuk tahun-tahun mendatang.

Siap mendiskusikan detail teknis yang tidak dapat kami muat dalam 2.000 kata? Teknisi penerapan kami sangat ahli dalam percakapan ini-jadwalkan pendalaman teknis di solutions@introl.com.

Referensi

Dell Technologies. 2024. "Pabrik AI Dell Mengubah Pusat Data dengan Pendinginan Canggih, Komputasi Kepadatan Tinggi, dan Inovasi Penyimpanan AI." Siaran pers, 15 Oktober. Ruang Berita Dell Technologies

Intro. 2025. "Penyebaran Infrastruktur GPU dan Insinyur Lapangan Global." Diakses pada 23 Juni. introl.com

Lambda. 2025. "Harga AI Cloud - NVIDIA B200 Cluster." Diakses pada 23 Juni. Harga Lambda Labs

NVIDIA. 2025. "Halaman Produk GB300 NVL72". Diakses pada 23 Juni. Pusat Data NVIDIA

NVIDIA. 2025. "Platform Pabrik AI NVIDIA Blackwell Ultra AI Membuka Jalan Menuju Era Penalaran AI." Siaran pers, 18 Maret. Berita NVIDIA

Supermikro. 2025. "Lembar Data SuperCluster NVIDIA GB300 NVL72." Februari. Lembar Data Supermicro

Register. 2024. Mann, Tobias. "Satu Rak, 120 kW Komputasi: Melihat Lebih Dekat NVIDIA DGX GB200 NVL72 Beast." 21 Maret. Daftar



Berikutnya
Berikutnya

Staf di Lokasi yang Dapat Diskalakan: Meluncurkan Infrastruktur Kritis di Hyperspeed