Si parla di una potenza di calcolo fino a 260 ExaFLOPS in FP8, più del quadruplo rispetto al modello precedente. Questa potenza è resa possibile grazie a un numero impressionante di GPU, fino a 65.536, il più grande supercomputer AI disponibile nel cloud. Ogni istanza di calcolo OCI all'interno del supercluster vanta il 76% di memoria ad alta larghezza di banda in più e il 40% di banda di memoria superiore rispetto alle istanze H100, migliorando le prestazioni di inferenza dei modelli linguistici di grandi dimensioni (LLM) fino a 1,9 volte. Inoltre, il doppio della velocità di trasferimento dati in ingresso e in uscita (200 Gbps per istanza) accelera notevolmente l'addestramento e la distribuzione dei modelli AI.
Architettura e innovazione
L'architettura del supercomputer OCI è progettata per massimizzare le prestazioni.
Oracle utilizza il calcolo GPU bare metal, una scelta unica tra gli hyperscaler, che elimina l'overhead dei sistemi di virtualizzazione, consentendo agli utenti di sfruttare al massimo le CPU e le GPU di ogni istanza. La rete personalizzata di OCI, basata su RDMA over Converged Ethernet Version 2 (RoCE v2) e NVIDIA ConnectX-7, garantisce un'elevata velocità di trasferimento dati (400 Gbps tra le GPU nei rack) e una latenza ultra-bassa (da 2,5 a 9,1 microsecondi). Questo permette un addestramento più veloce dei LLM su decine di migliaia di GPU. A supportare tutto questo, c'è una rete front-end migliorata a 200 Gbps che facilita il movimento di grandi set di dati tra storage e GPU, ottimizzando i tempi di iterazione e scalabilità. Il tutto è completato da accelerazione hardware e software specifiche per l'AI, inclusa l'integrazione di OCI File Storage con target di montaggio ad alte prestazioni (HPMT) e il servizio file Lustre (presto disponibile).
Specifiche tecniche e costi
L'istanza BM.GPU.H200.8 offre otto GPU NVIDIA H200 con 141 GB di memoria HBM3e ciascuna e una larghezza di banda di memoria di 4,8 TB/s. Il sistema è dotato di due CPU Intel Sapphire Rapids 8480+ a 56 core, 3 TB di memoria DDR5 e otto SSD NVMe da 3,84 TB. La rete del cluster raggiunge i 3200 Gbps, mentre la rete front-end è a 200 Gbps. Il prezzo? Rimane competitivo a 10 dollari per GPU all'ora, lo stesso della generazione precedente con GPU NVIDIA H100.
Oracle offre dunque una soluzione potente e scalabile per affrontare le sfide dell'AI moderna, un'infrastruttura all'avanguardia capace di gestire i modelli di AI più complessi e innovativi. Per accedere a questa tecnologia, è necessario contattare il team di vendita Oracle.
Clicca per ingrandire l'immagine
marketing - retail - ecommerce - intelligenza artificiale - AI - IA - digital transformation - pmi - high yield - bitcoin - bond - startup - pagamenti - formazione - internazionalizzazione - hr - m&a - smartworking - security - immobiliare - obbligazioni - commodity - petrolio - brexit - manifatturiero - sport business - sponsor - lavoro - dipendenti - benefit - innovazione - b-corp - supply chain - export - - punto e a capo -