Le prestazioni della GPU NVIDIA H100 superano i benchmark del machine learning per l'addestramento dei modelli

NVIDIA

La GPU Hopper H100 Tensor Core di NVIDIA ha fatto la sua prima apparizione nei benchmark all'inizio di quest'anno in MLPerf Inference 2.1. Nessuno è rimasto sorpreso dal fatto che l'H100 e il suo predecessore, l'A100, dominassero ogni carico di lavoro di inferenza. L'H100 ha stabilito record mondiali in tutti questi livelli e NVIDIA è l'unica azienda ad essersi sottoposta a ogni carico di lavoro per ogni round MLPerf.

Alcune settimane fa è stata rilasciata una nuova serie di risultati di formazione MLCommons, questa volta per MLPerf 2.1 Training, dominato anche da NVIDIA H100 e A100.

Sfortunatamente, il predominio di NVIDIA nelle suite di benchmarking MLPerf per l'inferenza e la formazione ha deviato i contributi e i report di molte importanti aziende di intelligenza artificiale.

L’industria trarrebbe vantaggio dalla partecipazione di più organizzazioni, come abbiamo visto in altri settori come quello delle CPU, che stimola la concorrenza e l’innovazione. Un ampio coinvolgimento nelle suite di benchmarking è significativo perché l’apprendimento automatico sta crescendo in modo esponenziale. Quasi ogni segmento industriale utilizza l’apprendimento automatico per un’ampia gamma di applicazioni. Con l'aumento dell'utilizzo, aumentano anche le dimensioni del modello. Dal 2018, MLCommons organizza cicli di test che si alternano tra i cicli di test MLPerf Training e MLPerf Inference.

Nei quattro anni trascorsi tra il primo test MLPerf nel 2018 e i risultati di quest'anno, le dimensioni del modello di machine learning sono aumentate di cinque ordini di grandezza. Con l'aumento delle dimensioni del modello e dei set di dati più grandi, strumenti standardizzati come MLPerf Training e MLPerf Inference sono più cruciali che mai. Le prestazioni del modello di machine learning devono essere misurate prima di poter essere migliorate.

Benchmark di formazione MLPerf 2.1

Riepilogo dei benchmark utilizzati in MLPerf Training v2.1 ... [+]

MLPerf Training e MLPerf Inference utilizzano gli stessi otto carichi di lavoro mostrati nel grafico precedente. Mini Go è un'eccezione perché viene utilizzato solo per valutare l'apprendimento per rinforzo. Ogni test di benchmark è definito dal proprio set di dati specifico e dal proprio obiettivo di qualità. La chiave è quanto tempo è necessario per addestrare il modello utilizzando il set di dati specificato con l'obiettivo di qualità specificato.

MLPerf è vitale per l'intelligenza artificiale e l'apprendimento automatico perché è un punto di riferimento standard del settore con risultati di peer review che fornisce confronti validi per l'addestramento e l'inferenza dei modelli. È supportato da Amazon, Arm, Baidu, Google, Harvard University, Intel, Meta, Microsoft, Stanford University e University of Toronto.

Più modelli singoli formano modelli multipli ad alte prestazioni

Le applicazioni IA del mondo reale utilizzano più modelli

È comune che più modelli di intelligenza artificiale siano concatenati insieme per soddisfare un singolo input. Un esempio di reti multimodali è la richiesta verbale nel grafico sopra. La domanda richiede dieci modelli di apprendimento automatico per produrre una risposta. Non solo più modelli devono funzionare in sequenza, ma devono anche fornire soluzioni in tempo reale.

Alcuni servizi cloud utilizzano anche più reti per fornire servizi accelerati dalle GPU NVIDIA. Tutte le reti e i framework applicativi di NVIDIA sono disponibili nel repository MLPerf, su NGC (repository di contenitori online di NVIDIA) e nel repository GitHub.

Prestazioni di allenamento benchmark A100 e H100

Formazione MLPerf v2.1 Prestazioni

Come mostrato nel grafico delle prestazioni di MLPerf Training 2.1, H100 ha fornito prestazioni fino a 6,7 volte superiori per il benchmark BERT rispetto alle prestazioni dell'A100 al suo primo invio MLPerf nel 2019.

A100 continua a produrre risultati record e prestazioni elevate con prestazioni migliorate fino a 2,5 volte. Questo guadagno è il risultato dell'ottimizzazione del software. Probabilmente sarà un'offerta NVIDIA per un bel po' di tempo.

Le prestazioni superiori dell'H100 sul modello BERT NLP sono attribuite al suo Transformer Engine. L'A100 non dispone di un motore di allenamento. Il nuovo motore, combinato con NVIDIA Hopper FP8 Tensor Core, offre un training AI fino a 9 volte più veloce e accelerazioni dell'inferenza AI 30 volte più veloci su modelli linguistici di grandi dimensioni rispetto all'A100. L'H100 si basa sull'architettura Hopper e utilizza tensor core di quarta generazione.

Blog

Le prestazioni della GPU NVIDIA H100 superano i benchmark del machine learning per l'addestramento dei modelli