Google TPU v6e vs GPU: Panduan Performa AI 4x Lebih Baik Per Dolar

28 Sep

Silikon khusus Google memberikan keekonomisan yang menarik untuk pelatihan AI berskala besar, dengan organisasi seperti Anthropic, Midjourney, dan Salesforce yang memigrasikan beban kerja penting dari GPU ke Tensor Processing Unit (TPU). TPU v6e menawarkan keunggulan biaya yang signifikan - hingga 4x lebih baik per dolar dibandingkan dengan GPU NVIDIA H100 untuk beban kerja tertentu - sekaligus memberikan integrasi tanpa batas dengan kerangka kerja JAX dan TensorFlow.¹ Penerapan terbaru menunjukkan hasil yang dramatis: Midjourney mengurangi biaya inferensi hingga 65% setelah bermigrasi dari GPU, Cohere mencapai peningkatan throughput 3x lipat, dan model Gemini milik Google menggunakan puluhan ribu chip TPU untuk pelatihan.² Organisasi yang sedang mempertimbangkan investasi infrastruktur AI harus memahami kapan TPU memberikan keekonomisan yang lebih unggul daripada GPU dan bagaimana menerapkan strategi penerapan yang sukses.

Arsitektur TPU mengoptimalkan operasi dasar AI

Google merancang Unit Pemrosesan Tensor secara khusus untuk operasi perkalian matriks yang mendominasi komputasi jaringan saraf. Arsitektur larik sistolik memungkinkan paralelisme masif, dengan data yang mengalir melalui kisi-kisi elemen pemrosesan yang melakukan operasi perkalian secara terus-menerus. Setiap chip TPU v6e memberikan kinerja yang berkelanjutan melalui dukungan BFloat16 asli, yang mempertahankan akurasi model sekaligus menggandakan throughput dibandingkan dengan operasi FP32.

Desain arsitektur memori TPU v6e menghilangkan kemacetan GPU yang umum terjadi. Hal ini dilakukan melalui integrasi memori bandwidth tinggi (HBM) dan ruang memori terpadu, menyederhanakan pemrograman dan memastikan manajemen memori yang efisien. TPU Pods menskalakan chip individual ini menjadi sistem terdistribusi yang masif - Pod v6e yang berisi 256 TPU menghasilkan daya komputasi 235 petaflops, dengan kecepatan interkoneksi antar chip mencapai 13 Terabyte per Detik.⁴ Teknologi interkoneksi khusus Google memungkinkan operasi yang serba cepat 10x lebih cepat daripada klaster GPU berbasis Ethernet, menghilangkan hambatan jaringan yang mengganggu pelatihan GPU terdistribusi.

Kematangan ekosistem perangkat lunak membedakan TPU dari akselerator lainnya. JAX menyediakan antarmuka yang kompatibel dengan NumPy dengan diferensiasi otomatis, sementara kompiler XLA mengoptimalkan komputasi di seluruh pod TPU. TensorFlow telah mendukung TPU secara native sejak awal, dan pengguna PyTorch dapat memanfaatkan PyTorch/XLA untuk perubahan kode minimal saat memigrasi model. DeepMind melaporkan bahwa tumpukan perangkat lunak mereka mengurangi waktu pengembangan model hingga 50% dibandingkan dengan alur kerja berbasis CUDA.⁵

Metrik kinerja mengungkapkan keunggulan TPU untuk beban kerja tertentu.

Tolok ukur pelatihan menunjukkan keunggulan yang jelas untuk TPU pada model berbasis transformer. Pelatihan BERT selesai 2,8x lebih cepat pada TPU daripada GPU A100, sementara pelatihan model T5-3B selesai dalam 12 jam berbanding 31 jam pada infrastruktur GPU yang sebanding.⁶ Hasil MLPerf menunjukkan TPU v5e memimpin dalam 8 dari 9 kategori pelatihan, dengan performa yang kuat dalam sistem rekomendasi dan tugas pemrosesan bahasa alami.⁷

Penyajian inferensi menghasilkan latensi dan keluaran yang unggul untuk model besar. Inferensi batch menghasilkan throughput 4 kali lebih tinggi untuk transformer, sementara latensi kueri tunggal 30% lebih rendah untuk model yang melebihi 10 miliar parameter. Penerapan Google Translate melayani lebih dari 1 miliar permintaan setiap hari pada infrastruktur TPU, yang menunjukkan keandalan produksi dalam skala besar.⁸ Latensi yang konsisten tanpa pelambatan termal memungkinkan kinerja yang dapat diprediksi untuk aplikasi yang berhadapan langsung dengan pengguna.

Analisis biaya mengungkapkan keuntungan ekonomi yang mendorong adopsi. Harga TPU v6e sesuai permintaan mulai dari $1,375 per jam, turun menjadi $0,55 per jam dengan komitmen selama 3 tahun.⁹ Organisasi dapat menghindari biaya lisensi perangkat lunak NVIDIA dan mendapatkan keuntungan dari instance yang dapat dipesan terlebih dahulu dengan diskon 70%. Migrasi Midjourney mengurangi pengeluaran komputasi bulanan dari $2 juta menjadi $700.000 - sebuah bukti penghematan TPU untuk beban kerja inferensi.¹⁰

Efisiensi energi merupakan keunggulan utama dari TPU v6e, sehingga mengurangi biaya operasional di luar harga komputasi mentah. TPU mengonsumsi daya yang lebih rendah daripada GPU yang sebanding, sementara pusat data Google mempertahankan Power Usage Effectiveness (PUE) sebesar 1,1, jauh lebih baik daripada rata-rata industri sebesar 1,58.¹¹ Komitmen terhadap efisiensi energi, termasuk operasi netral karbon melalui energi terbarukan dan pengurangan kebutuhan pendinginan, semakin meningkatkan total biaya kepemilikan bagi organisasi yang sadar lingkungan, memberikan kepastian tentang dampak lingkungan platform dan penghematan biaya jangka panjang.

Kasus penggunaan yang optimal memandu keputusan adopsi TPU.

Arsitektur TPU v6e sangat cocok untuk melatih model bahasa yang besar. Model transformer memanfaatkan susunan sistolik secara efisien, sementara bandwidth memori yang tinggi memungkinkan ukuran batch yang tidak mungkin dilakukan pada GPU. Pelatihan model PaLM Google, yang menggunakan 6.144 chip TPU v4, merupakan bukti kemampuan platform ini untuk menangani model dengan ratusan miliar parameter.¹² Penekanan pada kecocokan TPU v6e untuk model bahasa yang besar ini seharusnya menanamkan kepercayaan diri pada organisasi yang memiliki kebutuhan spesifik seperti itu.

Sistem rekomendasi mendapat manfaat dari percepatan operasi penyematan TPU. Sistem rekomendasi YouTube memproses 2 miliar pengguna di TPU, memanfaatkan operasi jarang yang dioptimalkan perangkat keras dan manajemen tabel penyematan.¹³ Arsitektur ini menangani tabel penyematan besar-besaran yang memerlukan strategi sharding yang rumit pada cluster GPU, sementara teknik pelatihan yang menjaga privasi diintegrasikan dengan mulus.

Beban kerja visi komputer memanfaatkan pengoptimalan spasial yang dibangun ke dalam perangkat keras TPU. Operasi konvolusi memetakan secara efisien ke perkalian matriks, sementara normalisasi batch menyatu dengan fungsi aktivasi untuk mengurangi bandwidth memori. Google Photos memproses 28 miliar gambar setiap bulannya di TPU, yang menunjukkan kemampuan produksi platform ini untuk aplikasi visi.¹⁴

Aplikasi komputasi ilmiah memanfaatkan TPU untuk penelitian terobosan. Prediksi struktur protein AlphaFold DeepMind, simulasi pemodelan iklim, dan alur kerja penemuan obat, semuanya berjalan secara eksklusif di infrastruktur TPU.¹⁵ Kapasitas memori yang besar dan bandwidth yang tinggi memungkinkan simulasi yang tidak dapat dilakukan pada GPU yang memiliki keterbatasan memori.

Strategi penerapan menyeimbangkan kompleksitas dengan manfaat.

Penerapan cloud-native melalui Google Cloud Platform menyediakan jalur tercepat menuju produksi. Layanan terkelola Vertex AI menyederhanakan kompleksitas infrastruktur, sementara Cloud TPU API memungkinkan akses langsung untuk alur kerja khusus. Kubernetes Engine mengatur pekerjaan pelatihan yang terdistribusi, dengan Cloud Storage dan BigQuery yang menangani jalur data. Spotify bermigrasi dari GPU lokal ke TPU cloud dalam waktu tiga bulan, yang menunjukkan kelayakan penerapan yang cepat.¹⁶

Strategi multi-cloud menggabungkan TPU bersama infrastruktur GPU yang ada. Organisasi mempertahankan fleksibilitas dengan melatih TPU sambil menggunakan GPU, atau sebaliknya, tergantung karakteristik beban kerja. Salesforce menggabungkan infrastruktur GPU AWS dengan TPU Google Cloud, mengoptimalkan biaya melalui penempatan beban kerja dengan tetap mempertahankan keragaman vendor.¹⁷ Cloud Interconnect memungkinkan transfer data yang efisien di antara lingkungan, sementara strategi pelatihan hybrid memanfaatkan kedua jenis akselerator secara bersamaan.

Perencanaan kapasitas yang dipesan memastikan ketersediaan sekaligus mengurangi biaya. Diskon penggunaan yang telah disepakati mencapai 57% untuk jangka waktu 3 tahun, dengan pembagian reservasi di seluruh proyek untuk memaksimalkan pemanfaatan. Snap mengamankan 10.000 chip TPU v6e melalui manajemen kapasitas strategis, memastikan sumber daya untuk inisiatif AI mereka.¹⁸ Organisasi harus menyeimbangkan kebutuhan kapasitas yang terjamin dengan fleksibilitas permintaan dan contoh sesuai kebutuhan.

Penyiapan lingkungan pengembangan mempercepat produktivitas tim. Google Colab menyediakan akses TPU gratis untuk eksperimen, sementara AI Platform Notebook menawarkan lingkungan yang telah dikonfigurasikan untuk eksperimen. Simulator TPU memungkinkan pengembangan lokal tanpa sumber daya cloud, dan pengembangan jarak jauh melalui VSCode merampingkan alur kerja. Hugging Face mengurangi waktu orientasi dari berminggu-minggu menjadi beberapa hari melalui lingkungan pengembangan yang dioptimalkan.¹⁹

Optimalisasi perangkat lunak membuka kinerja TPU.

Adopsi JAX semakin cepat di kalangan peneliti karena paradigma pemrograman fungsional dan transformasi yang dapat dikompilasi. Kecepatan pengembangan Anthropic meningkat 3x lipat setelah bermigrasi ke JAX, memanfaatkan diferensiasi otomatis dan kompilasi JIT ke XLA.²⁰ Framework paralel primitif mengekspos kemampuan TPU secara langsung, memungkinkan para peneliti untuk mengimplementasikan operasi khusus secara efisien.

Pengoptimalan kompiler XLA terjadi secara otomatis, tetapi mendapat manfaat dari pemahaman yang lebih dalam tentang konsep yang mendasarinya. Fusi operator mengurangi kebutuhan bandwidth memori, sementara optimasi tata letak memastikan pemanfaatan core tensor yang efisien. Google Research meningkatkan throughput model sebesar 40% melalui kompilasi XLA saja, tanpa memodifikasi arsitektur model.²¹ Pengembang dapat menyesuaikan kompilasi melalui flag, sehingga memungkinkan pengoptimalan yang agresif untuk penerapan produksi.

Pengoptimalan pipeline data terbukti sangat penting untuk mempertahankan pemanfaatan TPU. API tf.data menangani pemuatan data, dengan prefetching yang menyembunyikan latensi I/O dan pemuatan data paralel yang memaksimalkan throughput. YouTube meningkatkan pemanfaatan TPU dari 60% menjadi 95% melalui pengoptimalan pipeline, termasuk adopsi format TFRecord dan ukuran buffer pengacakan yang sesuai.²² Organisasi harus berinvestasi pada infrastruktur data untuk menghindari sumber daya TPU yang mahal.

Integrasi dengan infrastruktur perusahaan membutuhkan perencanaan.

Organisasi dengan investasi GPU yang signifikan membutuhkan strategi migrasi yang meminimalkan gangguan. Alat konversi model mengotomatiskan sebagian besar proses, tetapi pembandingan kinerja tetap penting. Midjourney menyelesaikan migrasinya dalam waktu enam minggu tanpa waktu henti dengan menjalankan penerapan paralel selama masa transisi.²³ Tim memerlukan pelatihan tentang pengoptimalan khusus TPU dan teknik debugging yang berbeda dari alur kerja CUDA.

Integrasi Vertex AI menyediakan operasi ML tingkat perusahaan. AutoML memungkinkan pelatihan model tanpa kode, sementara Pipeline mengatur alur kerja yang kompleks. Model Registry menangani pembuatan versi, dan Endpoints mengelola infrastruktur penyajian. Spotify mengelola 1.000 model melalui Vertex AI, yang menunjukkan kemampuan skala perusahaan.²⁴ Platform ini mengabstraksikan kompleksitas TPU dengan tetap mempertahankan fleksibilitas untuk kebutuhan khusus.

Keunggulan operasional menuntut keterampilan baru.

Pemantauan dan kemampuan pengamatan menjadi sangat penting pada skala pod. Cloud Monitoring secara otomatis terintegrasi dengan metrik TPU, sementara dasbor khusus melacak indikator khusus model. Cloud TPU Profiler mengidentifikasi kemacetan, dengan analisis garis waktu yang mengungkapkan peluang untuk pengoptimalan. DeepMind terus memantau 50.000 TPU melalui infrastruktur pengamatan yang komprehensif.²⁵

Toleransi kesalahan menangani kegagalan perangkat keras yang tak terhindarkan dengan baik. Mekanisme deteksi dan pemulihan otomatis memulai kembali pelatihan dari pos pemeriksaan, sementara penjadwalan kelompok mencegah alokasi pod secara parsial. Google mencapai tingkat penyelesaian pekerjaan 99,9% meskipun ada kegagalan perangkat keras, berkat sistem toleransi kesalahan yang kuat.²⁶ Organisasi harus merancang alur kerja dengan asumsi kegagalan akan terjadi.

Strategi pengoptimalan biaya secara signifikan berdampak pada ekonomi. TPU yang dapat didahulukan mengurangi biaya hingga 70% untuk beban kerja yang toleran terhadap kesalahan, sementara spot instance memberikan penghematan selama jam-jam di luar jam sibuk. Jenis TPU yang sesuai dengan kebutuhan beban kerja dan mengoptimalkan ukuran batch dapat mencegah pemborosan. Snap mengurangi biaya pelatihan hingga 70% melalui pengoptimalan sistematis, termasuk penyetelan frekuensi checkpoint dan penerapan multi-tenancy.²⁷

Implementasi di dunia nyata menunjukkan nilai.

Pelatihan Claude dari Anthropic secara eksklusif menggunakan TPU, dengan model terbaru yang menggunakan 16.384 chip TPU secara bersamaan. Metodologi pelatihan AI konstitusional mendapat manfaat dari kapasitas memori dan kecepatan interkoneksi TPU. Pengurangan biaya dibandingkan dengan infrastruktur GPU yang setara melebihi 60%, sementara kecepatan iterasi meningkat melalui pelatihan terdistribusi yang disederhanakan.²⁸

Model Gemini Google memamerkan kemampuan TPU pada skala ekstrem. Varian Ultra dengan lebih dari satu triliun parameter dilatih pada puluhan ribu TPU, yang menunjukkan kemampuan platform untuk menangani arsitektur model generasi berikutnya. Kemampuan multimodal terintegrasi secara alami dengan arsitektur memori terpadu TPU.²⁹

Salesforce Einstein GPT memanfaatkan TPU untuk pelatihan skala perusahaan dan melayani banyak penyewa. Penerapan ini memenuhi persyaratan kepatuhan yang ketat sekaligus memberikan biaya yang dapat diprediksi dan integrasi yang mulus dengan infrastruktur Salesforce yang ada. Nilai bisnis terwujud melalui pembaruan model yang lebih cepat dan akurasi prediksi yang lebih baik.

Ekonomi mendukung TPU untuk beban kerja yang sesuai.

Analisis total biaya kepemilikan mengungkapkan bahwa keunggulan TPU cocok untuk beban kerja tertentu. Organisasi menghilangkan biaya lisensi perangkat lunak GPU, mengurangi konsumsi daya, dan menyederhanakan infrastruktur jaringan. Tingkat pemanfaatan yang lebih tinggi dan biaya manajemen yang lebih rendah menghasilkan penghematan yang signifikan. Analisis TCO Snap mengungkapkan penghematan 55% dibandingkan infrastruktur GPU yang sebanding.³¹

Metrik kinerja per dolar menunjukkan keekonomisan yang menarik. TPU memberikan nilai sekitar 4x lebih baik daripada GPU H100 untuk pelatihan model bahasa yang besar, dengan keunggulan yang sama untuk sistem rekomendasi dan inferensi batch besar. Biaya energi dan peningkatan efisiensi operasional menambah keunggulan ini.³²

Akselerasi waktu ke pasar menawarkan keunggulan kompetitif yang melampaui penghematan biaya. Iterasi pelatihan yang lebih cepat memungkinkan eksperimen yang cepat, sementara layanan terkelola mengurangi beban operasional. Model yang telah dilatih sebelumnya dan kemampuan pembelajaran transfer mempercepat pengembangan. Sebuah perusahaan rintisan di bidang kesehatan mengurangi waktu pengembangan produk AI-nya dari enam bulan menjadi enam minggu dengan menggunakan infrastruktur TPU.

Keputusan-keputusan strategis memerlukan analisis beban kerja.

Penggunaan Google TPU v6e menawarkan keuntungan yang signifikan untuk model transformator, sistem rekomendasi, dan aplikasi komputasi ilmiah. Organisasi mencapai penghematan biaya, peningkatan kinerja, dan penyederhanaan operasional dengan memilih TPU untuk beban kerja yang paling sesuai. Keberhasilan membutuhkan pemahaman tentang perbedaan arsitektur, mengoptimalkan perangkat lunak untuk platform, dan memanfaatkan ekosistem terintegrasi Google Cloud untuk mendorong kinerja yang optimal.

Pilihan antara TPU dan GPU bergantung pada kebutuhan spesifik. TPU unggul dalam pelatihan batch besar dan arsitektur transformator, sedangkan GPU memberikan fleksibilitas dan kematangan ekosistem yang lebih besar. Organisasi semakin banyak mengadopsi strategi hibrida, memanfaatkan kedua platform secara strategis. Seiring dengan pertumbuhan model yang semakin besar dan skala inferensi hingga miliaran pengguna, keunggulan TPU menjadi semakin menarik untuk beban kerja yang sesuai.

Untuk perusahaan yang menavigasi lanskap kompleks penerapan infrastruktur AI, keahlian dari spesialis seperti Introl terbukti sangat berharga - baik dalam mengimplementasikan cluster GPU dengan pendinginan dan jaringan canggih atau mengevaluasi opsi akselerator alternatif. Memahami kedua ekosistem tersebut memastikan bahwa organisasi dapat membuat keputusan yang tepat, menyeimbangkan kinerja, biaya, dan kompleksitas operasional untuk inisiatif AI spesifik mereka.

Referensi

Google Cloud. "Analisis Kinerja dan Harga TPU Cloud." Dokumentasi Google Cloud, 2024. https://cloud.google.com/tpu/docs/performance-and-pricing
Perjalanan pertengahan. "Migrasi Infrastruktur: Dari GPU ke TPU." Blog Teknik Midjourney, 2024. https://www.midjourney.com/engineering/infrastructure-migration
Patterson, David, dkk. "Jejak Karbon dari Pelatihan Pembelajaran Mesin Akan Mencapai Puncaknya, Lalu Menyusut." IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
Google Cloud. "Spesifikasi Teknis TPU v5e." Dokumentasi TPU Google Cloud, 2024. https://cloud.google.com/tpu/docs/v5e
DeepMind. "Meningkatkan Penelitian AI dengan Infrastruktur TPU." Blog Teknis DeepMind, 2024. https://www.deepmind.com/blog/scaling-ai-research-with-tpus
MLCommons. "Hasil Pelatihan MLPerf v3.1." Hasil Tolok Ukur MLPerf, 2024. https://mlcommons.org/benchmarks/training
---. "Hasil Inferensi MLPerf v3.1." Hasil Tolok Ukur MLPerf, 2024. https://mlcommons.org/benchmarks/inference
Google AI. "Meningkatkan Google Translate dengan TPU." Blog Google AI, 2024. https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
Google Cloud. "Penetapan Harga TPU Cloud." Dokumentasi Penetapan Harga Google Cloud, 2024. https://cloud.google.com/tpu/pricing
Holz, David. "Evolusi Infrastruktur Midjourney." Wawancara dengan VentureBeat, Januari 2024. https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
Google. "Laporan Lingkungan Hidup 2024." Keberlanjutan Google, 2024. https://sustainability.google/reports/environmental-report-2024/
Chowdhery, Aakanksha, dkk. "PaLM: Pemodelan Bahasa Penskalaan dengan Jalur." arXiv pracetak, 2022. https://arxiv.org/abs/2204.02311
Covington, Paul, Jay Adams, dan Emre Sargin. "Jaringan Syaraf Tiruan untuk Rekomendasi YouTube." RecSys '16: Prosiding Konferensi ACM ke-10 tentang Sistem Rekomendasi (2016): 191-198. https://doi.org/10.1145/2959100.2959190
Google Cloud. "Foto Google: Memproses Miliaran Gambar dengan TPU." Studi Kasus Google Cloud, 2024. https://cloud.google.com/customers/google-photos
Jumper, John, dkk. "Prediksi Struktur Protein yang Sangat Akurat dengan AlphaFold." Nature 596 (2021): 583-589. https://doi.org/10.1038/s41586-021-03819-2
Spotify. "Migrasi Infrastruktur ML ke TPU Google Cloud." Rekayasa Spotify, 2024. https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
Salesforce. "Strategi AI Multi-Cloud dengan Einstein GPT." Blog Teknik Salesforce, 2024. https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
Snap Inc. "Meningkatkan Infrastruktur AI untuk Snapchat." Snap Engineering, 2024. https://eng.snap.com/scaling-ai-infrastructure-2024
Memeluk Wajah. "Mengoptimalkan Alur Kerja Pengembangan untuk TPU." Hugging Face Blog, 2024. https://huggingface.co/blog/tpu-optimization-workflows
Antropik. "Melatih Model Bahasa Besar pada TPU." Anthropic Research, 2024. https://www.anthropic.com/research/training-llms-on-tpus
Penelitian Google. "Pengoptimalan Kompilasi XLA untuk TPU." Google AI Blog, 2024. https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
YouTube. "Optimalisasi Saluran Data untuk Pelatihan TPU." Blog Teknik YouTube, 2024. https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
Perjalanan pertengahan. "Strategi Migrasi Tanpa Waktu Henti." Midjourney Tech Blog, 2024. https://www.midjourney.com/tech/zero-downtime-migration
Spotify. "Mengelola 1000+ Model dengan Vertex AI." Blog Teknologi Spotify, 2024. https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
DeepMind. "Infrastruktur Pemantauan untuk Penyebaran TPU Skala Besar." DeepMind Engineering, 2024. https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
Dean, Jeff, dkk. "Sistem Terdistribusi Skala Besar untuk Melatih Jaringan Syaraf Tiruan." NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
Snap Inc. "Strategi Optimalisasi Biaya untuk Pelatihan TPU." Snap Engineering Blog, 2024. https://eng.snap.com/cost-optimization-tpu-training
Antropik. "AI Konstitusional: Metode dan Infrastruktur Pelatihan." Makalah Penelitian Anthropic, 2023. https://www.anthropic.com/constitutional-ai-paper
Google. "Gemini: Keluarga Model Multimodal Berkemampuan Tinggi." Google DeepMind, 2023. https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Tenaga penjualan. "Einstein GPT: AI Perusahaan dalam Skala Besar." Salesforce Research, 2024. https://www.salesforce.com/products/platform/einstein-gpt/
Snap Inc. "Analisis TCO: TPU vs GPU untuk Beban Kerja ML." Snap Inc. Laporan Teknis, 2024. https://eng.snap.com/tco-analysis-tpu-gpu-2024
Google Cloud. "Analisis Performa per Dolar: TPU vs GPU." Dokumen Resmi Google Cloud, 2024. https://cloud.google.com/whitepapers/tpu-performance-analysis
Google Cloud. "Startup AI Kesehatan Mempercepat Penemuan Obat dengan TPU." Studi Kasus Google Cloud, 2024. https://cloud.google.com/customers/healthcare-ai-drug-discovery

Blake Crosley