Panduan Perangkat Keras LLM Lokal 2025: Harga & Spesifikasi

Lanskap untuk penerapan LLM lokal pada Agustus 2025 menawarkan berbagai jalur perangkat keras, dari GPU konsumen hingga solusi pusat data perusahaan, dengan variasi harga yang dramatis dan pertukaran kinerja yang sangat memengaruhi keputusan penerapan. Temuan yang paling signifikan adalah bahwa konfigurasi dual RTX 5090 kini menyamai performa H100 untuk model 70B dengan biaya 25% lebih murah, yang secara fundamental mengubah keekonomisan penerapan lokal.

Perangkat keras konsumen telah mencapai ambang batas kinerja yang memungkinkan penerapan produksi yang serius. VRAM 32GB dari RTX 5090 memungkinkan untuk menjalankan model 70B terkuantisasi pada satu GPU, sementara M3 Ultra Apple dengan memori terpadu 512GB dapat menangani model parameter 671B dengan kuantisasi. Opsi perusahaan seperti B200 menawarkan kinerja yang unggul tetapi menghadapi kendala pasokan yang parah dan harga premium yang mungkin tidak sesuai dengan investasi untuk banyak kasus penggunaan.

Spesifikasi Apple Silicon mengubah aksesibilitas model besar.

Harga dan konfigurasi memori Mac Studio M3 Ultra

Mac Studio M3 Ultra dimulai dengan harga $3.999 untuk konfigurasi dasar CPU 28-core dengan memori terpadu 96GB. Opsi 192GB yang sangat penting tidak tersedia secara langsung - pengguna harus memilih konfigurasi 256GB dengan tambahan $1.500, sehingga totalnya menjadi $5.499. Konfigurasi maksimum 512GB menambahkan $2.400 di atas opsi 256GB, sehingga menghasilkan harga $9.499 untuk konfigurasi memori teratas dengan penyimpanan 1TB. Sistem yang sepenuhnya dimaksimalkan dengan RAM 512GB dan penyimpanan 16TB mencapai $14.099.

Bandwidth memori 819GB/s dari M3 Ultra terbukti sangat penting untuk inferensi LLM, mengungguli arsitektur CPU+GPU tradisional yang mengharuskan data melintasi bus PCIe. Neural Engine 32-core menghasilkan 38 triliun operasi per detik, sementara dukungan Thunderbolt 5 memungkinkan transfer data 120GB/detik untuk konfigurasi pengelompokan yang potensial.

Pengelompokan Mac Mini M4 memberikan skalabilitas yang ramah anggaran.

Mac Mini M4 mulai dari harga $599 untuk konfigurasi dasar 10-core dengan memori 16GB (dapat diupgrade hingga 32GB). Varian M4 Pro dengan harga $1.399 menyediakan memori dasar 24GB yang dapat diupgrade hingga 64GB, dengan bandwidth memori 273GB/s yang secara signifikan meningkatkan performa LLM. Pengujian di dunia nyata menunjukkan sebuah M4 Pro dengan RAM 64GB menjalankan Qwen 2.5 32B dengan kecepatan 11-12 token/detik, cukup untuk banyak kasus produksi.

Exo Labs mendemonstrasikan pengelompokan yang efektif dengan 4 Mac Mini M4 (masing-masing seharga $599) ditambah sebuah MacBook Pro M4 Max, mencapai total memori terpadu 496GB dengan harga di bawah $5.000. Pengaturan ini menjalankan Qwen 2.5 Coder-32B dengan kecepatan 18 token/detik dan Nemotron-70B dengan kecepatan delapan token/detik. Namun, Mac Studio kelas atas tunggal biasanya mengungguli cluster Mac Mini karena bandwidth memori yang lebih besar dan pengurangan overhead komunikasi antar-perangkat.

Harga GPU NVIDIA mencerminkan distorsi pasar yang parah

RTX 5090 memiliki harga yang sangat mahal meskipun memiliki harga jual $1.999

RTX 5090 secara resmi dijual dengan harga $1.999 untuk Founders Edition, tetapi harga di pasaran berkisar antara $2.500 hingga $3.800 untuk model AIB. ASUS ROG Astral dijual seharga $ 2.799,99 ketika tersedia, dengan model khusus yang secara rutin melebihi $ 3.000. VRAM GDDR7 32GB dengan bandwidth 1.792 GB/s pada kartu ini memungkinkan untuk menjalankan model parameter 70B dengan kuantisasi pada satu GPU.

Benchmark performa menunjukkan bahwa RTX 5090 mencapai 5.841 token/detik pada Qwen2.5-Coder-7B (ukuran batch 8), yang mewakili 2,6x performa A100 80GB. Untuk model 70B, konfigurasi dual RTX 5090 mencapai tingkat evaluasi 27 token/detik, menyamai performa H100 dengan biaya yang lebih murah. TDP 575W membutuhkan catu daya 1200W+ dan solusi pendinginan yang kuat.

Harga GPU perusahaan tetap berada di atas langit.

GPU H200 dibanderol dengan harga $40.000-$55.000 per unit melalui mitra saluran, dengan tarif cloud sebesar $3,72-$10,60 per jam. Memori HBM3e 141GB dan bandwidth 4,8 TB/s mewakili 76% lebih banyak memori dan 43% bandwidth lebih tinggi daripada H100. B200 yang lebih baru dibanderol dengan harga $30.000-$35.000 meskipun menawarkan 192GB HBM3e dan bandwidth 8 TB/s, meskipun ketersediaannya masih sangat terbatas dengan waktu tunggu 3-6 bulan.

B100, diposisikan sebagai pengganti H100 dengan memori 192GB pada TDP 700W, dengan harga yang sama yaitu $30.000-$35.000. Seluruh produksi Blackwell hingga tahun 2025 dilaporkan telah terjual habis, dengan TSMC meningkatkan pesanan dari 40.000 menjadi 60.000 unit untuk memenuhi permintaan.

Sistem DGX mencapai titik harga setengah juta dolar

Sistem DGX H200 dengan 8 GPU dan total memori 1.128GB berharga $400.000-$500.000, sedangkan DGX B200 yang lebih baru dijual dengan harga $515.410 dari Broadberry. Sistem B200 memberikan 72 PFLOPS FP8 pelatihan dan 144 PFLOPS FP4 kinerja inferensi, yang mewakili 3x pelatihan dan 15x peningkatan inferensi dibandingkan DGX H100.

Superchip GB200, yang menggabungkan dua GPU B200 dengan CPU Grace, berharga $60.000-$70.000 per unit. Sistem skala rak seperti GB200 NVL72 dengan 72 GPU mencapai $3 juta, yang menargetkan penerapan skala besar.

Kebutuhan memori menentukan strategi pemilihan perangkat keras.

Permintaan memori model yang tidak terkuantisasi melebihi sebagian besar sistem tunggal.

Menjalankan model parameter 70B dalam presisi FP16 membutuhkan sekitar 148GB VRAM ditambah 20% overhead untuk aktivasi, dengan total 178GB. Dengan konteks 128K, cache KV menambahkan 39GB lagi, mendorong kebutuhan melebihi 200GB, yang membutuhkan beberapa GPU (2× H100 80GB atau 4× A100 40GB) atau kuantisasi yang agresif.

Model parameter 405B membutuhkan 810GB untuk model dasar di FP16, dengan total kebutuhan mendekati 1TB, termasuk overhead dan cache KV. Model-model ini membutuhkan penerapan multi-node atau kuantisasi FP8 pada sistem 8× H100. Model 671B Nemotron dan DeepSeek-R1 membutuhkan 1,3-1,4TB di FP16, membutuhkan infrastruktur skala pusat data atau kuantisasi agresif hingga 700GB di FP8.

Kuantisasi mengubah ekonomi penyebaran.

Kuantisasi GGUF mengurangi memori sebesar 4x dengan Q4_K_M dengan tetap mempertahankan kualitas yang dapat diterima untuk sebagian besar kasus penggunaan. Q5_K_M memberikan pengurangan 3,2x dengan degradasi minimal. Format ini unggul pada CPU dan Apple Silicon, sehingga ideal untuk penggunaan di bagian tepi.

AWQ (Activation-aware Weight Quantization ) memberikan penghematan memori 4x dengan kualitas yang lebih baik dibandingkan GPTQ, dan sering kali berjalan 2x lebih cepat pada GPU. Ini sangat efektif untuk model yang disesuaikan dengan instruksi di mana menjaga kualitas respons sangat penting.

Kuantisasi FP8 pada perangkat keras H100/H200/B200 memberikan pengurangan memori 2x lipat dengan penurunan kualitas yang minimal, karena banyak model terbaru yang dilatih secara native dalam FP8, yang memungkinkan menjalankan model 405B pada satu node 8-GPU dengan tetap mempertahankan kinerja presisi yang hampir penuh.

Arsitektur penerapan bervariasi secara dramatis berdasarkan kasus penggunaan.

Layanan pelanggan memprioritaskan waktu respons daripada ukuran model.

Untuk aplikasi layanan pelanggan yang membutuhkan respons sub-2 detik, Llama 3.1 8B di FP16 pada GPU A10G atau L4 tunggal (VRAM 16GB) memberikan performa harga yang optimal. Untuk respon yang lebih berkualitas, Llama 3.1 70B dengan kuantisasi AWQ 4-bit pada GPU ganda A100 80GB memberikan performa kelas enterprise dengan penggunaan 35GB per GPU.

vLLM dengan paralelisme tensor dan batching kontinu memaksimalkan throughput, sementara manajemen cache KV yang pra-pemanasan dan agresif meminimalkan latensi token pertama. Sebagian besar penerapan yang berhasil menerapkan perutean hibrida, mengirimkan 70% kueri ke model yang lebih kecil dan mencadangkan model yang lebih besar untuk permintaan yang kompleks.

Pembuatan kode menuntut jendela konteks yang luas.

Beban kerja pembuatan kode membutuhkan panjang konteks 32K-128K, sehingga mendorong kebutuhan memori secara signifikan lebih tinggi. Llama 3.1 70B di FP16 pada GPU 4× A100 80GB menangani konteks penuh dengan 40GB+ yang dicadangkan untuk cache KV. Model DeepSeek-Coder, yang dilatih secara eksplisit untuk tugas-tugas kode, sering kali mengungguli model umum yang lebih besar.

Paralelisme tensor simpul tunggal dengan penyimpanan NVMe yang cepat untuk pemuatan model terbukti paling efektif. Banyak tim melaporkan keberhasilan dengan sistem Mac Studio M3 Ultra untuk pengembangan, memanfaatkan memori terpadu 512GB untuk bereksperimen dengan model yang lebih besar sebelum penerapan produksi.

Aplikasi penelitian menuntut presisi maksimum.

Penerapan penelitian memprioritaskan akurasi daripada biaya, biasanya menjalankan Llama 3.1 405B di FP8 pada sistem 8× H100 atau DeepSeek-R1 671B untuk tugas-tugas penalaran tingkat lanjut. Konfigurasi ini menghindari kuantisasi agresif untuk menjaga reproduktifitas dan kemampuan model maksimum.

Persyaratan infrastruktur mencakup pengaturan multi-node dengan interkoneksi InfiniBand dan pendinginan tingkat perusahaan. Banyak lembaga penelitian menganggap sistem Apple M3 Ultra sangat berharga untuk eksperimen, karena memori terpadu 512GB memungkinkan pemuatan model yang membutuhkan banyak GPU di tempat lain.

Pembuatan konten menyeimbangkan kreativitas dengan konsistensi.

Pembuatan konten biasanya menggunakan Llama 3.1 70B di FP16 untuk kreativitas dan konsistensi yang seimbang, atau Mixtral 8x7B dengan kuantisasi GPTQ 4-bit untuk pemrosesan batch yang hemat biaya. Pengambilan sampel suhu yang lebih tinggi dan teknik prompt yang beragam mendorong hasil yang kreatif sekaligus mempertahankan konsistensi suara merek.

Perencanaan kapasitas burst terbukti penting, karena alur kerja kreatif sering kali menunjukkan lonjakan penggunaan yang ekstrem. Banyak penerapan menerapkan arsitektur berbasis antrean yang dapat menskalakan dari 1 hingga 10+ GPU berdasarkan permintaan.

Total biaya kepemilikan menunjukkan titik impas yang mengejutkan.

Biaya akuisisi perangkat keras sangat bervariasi menurut kelasnya.

GPU konsumen berkisar antara $1.600-$2.000 untuk RTX 4090 hingga $2.000-$3.800 untuk RTX 5090, meskipun ketersediaannya masih menjadi masalah. GPU perusahaan berharga $25.000-$30.000 untuk H100 dan $30.000-$40.000 untuk B200. Sistem Apple M3 Ultra dengan konfigurasi memori yang berarti berharga $7.000-$10.000.

Cloud instance menawarkan ketersediaan langsung dengan harga $0,89/jam untuk RTX 5090, $1,90-$3,50/jam untuk H100, dan $4,00-$6,00/jam untuk sistem B200. Penurunan harga H100 yang dramatis dari $8+/jam pada awal 2025 mencerminkan peningkatan ketersediaan dan persaingan.

Biaya operasional tidak hanya terbatas pada perangkat keras.

Konsumsi daya berkisar antara 215W untuk sistem Apple M3 Ultra hingga 1000W untuk GPU B200, dengan biaya listrik $0,10-$0,30/kWh. Pendinginan menambah biaya overhead sebesar 15-30%, sementara infrastruktur jaringan untuk pengaturan multi-GPU membutuhkan konektivitas 10Gbps+. Biaya staf rata-rata $135.000/tahun untuk insinyur MLOps, dengan tambahan biaya kepatuhan sebesar 5-15% untuk industri yang diatur.

Titik impas untuk self-hosting versus penggunaan API biasanya terjadi sekitar 2 juta token per hari, dengan pemanfaatan perangkat keras yang tepat di atas 70% sangat penting untuk efektivitas biaya. Sebuah perusahaan fintech mengurangi biaya hingga 83% dengan beralih dari $47 ribu/bulan pada GPT-4o Mini menjadi $8 ribu/bulan dengan pendekatan model hybrid Claude Haiku plus self-hosted 7B.

Tolok ukur kinerja mengungkapkan kekuatan platform.

Kecepatan inferensi terbaru mendukung arsitektur yang lebih baru.

RTX 5090 mencapai 5.841 token/detik pada Qwen2.5-Coder-7B, menunjukkan peningkatan 72% dibandingkan RTX 4090 dalam tugas-tugas NLP. Model kecil seperti Qwen2-0.5B mencapai 65.000+ token/detik yang menakjubkan, memungkinkan throughput yang sangat besar untuk tugas-tugas sederhana.

Sistem B200 memberikan peningkatan inferensi 15x lipat dari H100, sementara H200 memberikan kecepatan 2x lipat dengan peningkatan bandwidth memori. Apple M3 Ultra mencapai 76 token/detik pada LLaMA-3 8B Q4_K_M, dengan M4 Max yang akan datang diproyeksikan mencapai 96-100 token/detik.

Pilihan kerangka kerja secara signifikan memengaruhi kinerja.

vLLM 0.6.0 memberikan peningkatan throughput 2,7x dan pengurangan latensi 5x dibandingkan dengan versi sebelumnya, mencapai 2.300-2.500 token/detik untuk Llama 8B pada H100. PagedAttention-nya mengurangi fragmentasi memori hingga 60-80%, sangat penting untuk penerapan produksi.

Llama.cpp menyediakan 93,6-100,2% performa vLLM untuk permintaan tunggal sekaligus menawarkan pengoptimalan CPU dan Apple Silicon yang superior. Opsi kuantisasi yang luas dan overhead memori yang lebih rendah membuatnya ideal untuk penerapan edge.

Metrik efisiensi daya meningkat secara dramatis.

Sistem H100 modern dengan vLLM mencapai 0,39 joule per token untuk Llama-3.3-70B FP8, mewakili efisiensi 120x lebih baik daripada perkiraan ChatGPT yang biasa dikutip. RTX 5090 mengkonsumsi daya 28% lebih besar daripada RTX 4090 sekaligus memberikan performa 72% lebih baik, sehingga meningkatkan efisiensi secara keseluruhan secara signifikan.

Kuantisasi FP8 dan FP4 mengurangi konsumsi daya sebesar 30-50% dengan tetap mempertahankan kualitas yang dapat diterima. Pengoptimalan perangkat lunak melalui vLLM dan TensorRT-LLM memberikan peningkatan efisiensi tambahan, dengan beberapa penerapan melaporkan peningkatan 10x lipat dari garis dasar tahun 2023.

Penyebaran multi-simpul memungkinkan eksekusi model frontier.

Kebutuhan perangkat keras meningkat secara eksponensial dengan ukuran model.

GPU tunggal menangani model dengan VRAM di bawah 80GB secara efektif. Konfigurasi multi-GPU node tunggal dengan 2-8 GPU yang terhubung melalui NVLink bekerja dengan baik hingga total VRAM 640GB (batas 8× H100). Di luar ambang batas ini, penerapan multi-node menjadi penting, yang menimbulkan kompleksitas dan biaya komunikasi yang signifikan.

Untuk model 70B, 4 Mac Mini M4 dapat menyediakan memori yang cukup melalui pengelompokan, meskipun satu Mac Studio M3 Ultra biasanya memberikan kinerja yang lebih baik. Model 405B selalu membutuhkan penyebaran terdistribusi di FP16, sedangkan model 671B membutuhkan infrastruktur skala pusat data kecuali jika dikuantifikasi secara agresif.

Strategi paralelisme mengoptimalkan skenario yang berbeda.

Paralelisme tensor membagi setiap lapisan di beberapa GPU, memberikan latensi rendah melalui komputasi paralel. Pendekatan ini unggul dalam node tunggal di mana interkoneksi bandwidth tinggi seperti NVLink meminimalkan overhead komunikasi. Konfigurasikan dengan tensor_parallel_size sama dengan GPU per node untuk kinerja optimal.

Paralelisme pipeline mendistribusikan lapisan yang bersebelahan di seluruh node, sehingga mengurangi kebutuhan komunikasi antar-node. Meskipun hal ini memperkenalkan gelembung pipeline yang mengurangi efisiensi dalam inferensi autoregresif, hal ini memungkinkan penskalaan pada interkoneksi yang lebih lambat dan mendukung konfigurasi memori GPU yang tidak merata.

Pendekatan hibrida yang digunakan oleh vLLM menggunakan paralelisme tensor di dalam node dan paralelisme pipa di seluruh node, memaksimalkan bandwidth lokal dan efisiensi lintas node.

Rekomendasi praktis untuk penerapan segera

Untuk organisasi yang memproses di bawah 1 juta token setiap hari, saya sarankan untuk tetap menggunakan penyedia API sambil memantau pertumbuhan penggunaan. Kompleksitas dan persyaratan modal untuk melakukan self-hosting tidak membenarkan penghematan sederhana pada skala ini.

Tim yang menangani 1-10 juta token setiap hari harus mempertimbangkan satu RTX 4090 atau RTX 5090 yang menjalankan model terkuantisasi. Sweet spot ini menyeimbangkan investasi modal dengan penghematan operasional, biasanya mencapai ROI dalam waktu 6-12 bulan.

Perusahaan yang memproses lebih dari 10 juta token setiap hari mendapat manfaat dari pengaturan RTX 5090 ganda atau instance cloud H100 dengan kapasitas yang dicadangkan. Menerapkan strategi perutean hibrida yang mengirimkan kueri sederhana ke model yang lebih kecil sambil mencadangkan model yang lebih besar untuk permintaan yang kompleks, sehingga mengurangi biaya sebesar 10-30%.

Organisasi dengan persyaratan kepatuhan harus memprioritaskan penerapan H100/H200 di tempat meskipun harganya mahal, karena kemampuan kontrol dan audit membenarkan faktor biaya tambahan sebesar 15% biaya overhead untuk infrastruktur dan proses yang terkait dengan kepatuhan.

Tim peneliti dan pengembang mendapatkan manfaat terbesar dari sistem Apple M3 Ultra dengan RAM 512GB, yang memungkinkan eksperimen dengan model yang jika tidak, akan membutuhkan pengaturan multi-GPU yang mahal. Meskipun kecepatan inferensi tertinggal dari solusi NVIDIA, arsitektur memori terpadu memberikan keuntungan unik untuk pengembangan dan pengujian model.

Referensi

Dokumentasi Model Inti

DeepSeek AI. "Laporan Teknis DeepSeek-V3." arXiv pracetak, Desember 2024. https://arxiv.org/html/2412.19437v1.

Meta. "Kawanan Llama 4: Awal dari Era Baru Inovasi AI Multimodal." Blog Meta AI, April 2025. https://ai.meta.com/blog/llama-4-multimodal-intelligence/.

Pengembang Google. "Memperkenalkan Gemma 3: Panduan Pengembang." Blog Pengembang Google, 2025. https://developers.googleblog.com/en/introducing-gemma3/.

Alibaba Cloud. "Qwen3: Berpikir Lebih Dalam, Bertindak Lebih Cepat." Qwen (blog). Diakses pada 13 Agustus 2025. https://qwenlm.github.io/blog/qwen3/.

Perangkat Keras dan Infrastruktur

NVIDIA. "DGX H200." Pusat Data NVIDIA. Diakses pada 13 Agustus 2025. https://www.nvidia.com/en-us/data-center/dgx-h200/.

Pengembang NVIDIA. "Platform NVIDIA Blackwell Mencatatkan Rekor Inferensi LLM Baru dalam Inferensi MLPerf v4.1." Blog Teknis NVIDIA, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/.

Strategi Kreatif. "Ulasan Apple Mac Studio dengan M3 Ultra: Stasiun Kerja Pengembang AI Terbaik." Creative Strategies, 2025. https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/.

Kerangka Kerja Penyajian

vLLM. "vLLM V1: Peningkatan Besar pada Arsitektur Inti vLLM." Blog vLLM, 27 Januari 2025. https://blog.vllm.ai/2025/01/27/v1-alpha-release.html.

NVIDIA. "TensorRT-LLM." Repositori GitHub. GitHub, 2025. https://github.com/NVIDIA/TensorRT-LLM.

Memeluk Wajah. "Memperkenalkan Dukungan Multi-Backend (TRT-LLM, vLLM) untuk Inferensi Pembuatan Teks." Blog Hugging Face, 2025. https://huggingface.co/blog/tgi-multi-backend.

Analisis Pasar dan Studi Kasus

Menlo Ventures. "Pembaruan Pasar LLM Pertengahan Tahun 2025: Lanskap Model Yayasan + Ekonomi." Menlo Ventures, 2025. https://menlovc.com/perspective/2025-mid-year-llm-market-update/.

ZenML. "LLMOps dalam Produksi: 457 Studi Kasus tentang Apa yang Sebenarnya Berhasil." Blog ZenML, 2025. https://www.zenml.io/blog/llmops-in-production-457-case-studies-of-what-actually-works.

Panduan Implementasi

Red Hat. "Penalaran Siap-Penyebaran dengan Model DeepSeek-R1 Terkuantifikasi." Pengembang Red Hat, Maret 2025. https://developers.redhat.com/articles/2025/03/03/deployment-ready-reasoning-quantized-deepseek-r1-models.

Yermagambet, Rasul. "Memonitor Cluster Multi-Node untuk Pelatihan LLM dengan Prometheus dan Grafana." Medium, 2025. https://medium.com/@rasul.yermagambet/monitoring-multi-node-clusters-for-llm-training-with-prometheus-and-grafana-bea82da7f1db.

Tumpukan Baru. "Pengantar vLLM: Mesin Penyajian LLM Berkinerja Tinggi." The New Stack, 2025. https://thenewstack.io/introduction-to-vllm-a-high-performance-llm-serving-engine/.

Sebelumnya
Sebelumnya

CoreWeave: Revolusi Infrastruktur AI - Bagaimana Startup Penambangan Kripto Menjadi Tulang Punggung Kecerdasan Buatan Senilai $23 Miliar

Berikutnya
Berikutnya

Stargate dari OpenAI: Usaha Patungan Senilai $500 Miliar yang Memberdayakan AI Masa Depan