Todo sobre Apple, Android, Juegos Apks y Sitios de Peliculas

La nueva GPU Ampere de NVIDIA cambia las reglas del juego para la inteligencia artificial

Hoy, NVIDIA anunció su nueva arquitectura Ampere, junto con el nuevo A100 en el que se ejecuta. Es una mejora significativa con respecto a Turing, que ya es una arquitectura centrada en la IA que impulsa los centros de datos de gama alta y el trazado de rayos impulsado por ML en el espacio de gráficos de consumo.

Si desea un resumen completo de todos los detalles muy técnicos, puede leer el artículo de NVIDIA. descripción detallada de la arquitectura. Desglosaremos las cosas más importantes.

El nuevo troquel es absolutamente enorme

Desde el principio, van a por todas con este nuevo chip. El troquel Tesla V100 de última generación tenía 815 mm en el ya maduro nodo de proceso de 14 nm de TSMC, con 21,1 mil millones de transistores. Ya es bastante grande, pero el A100 lo avergüenza con 826 mm en los 7 nm de TSMC, un proceso mucho más denso y la friolera de 54,2 mil millones de transistores. Impresionante para este nuevo nodo.

Esta nueva GPU presenta 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA, 40 GB de memoria y 1,6 TB/s de ancho de banda de memoria. En una carga de trabajo bastante específica (INT8 escasa), el A100 en realidad genera 1 PetaFLOPS de potencia informática bruta. Por supuesto, eso es en INT8, pero aún así, la tarjeta es muy poderosa.

Luego, al igual que el V100, tomaron ocho de estas GPU y crearon una mini supercomputadora que están vendiendo por 200.000 dólares. Es probable que pronto los vea llegar a proveedores de nube como AWS y Google Cloud Platform.

Sin embargo, a diferencia del V100, esta no es una GPU masiva: en realidad son 8 GPU separadas que se pueden virtualizar y alquilar por sí solas para diferentes tareas, junto con un rendimiento de memoria 7 veces mayor para arrancar.

En cuanto a utilizar todos esos transistores, el nuevo chip funciona mucho más rápido que el V100. Para el entrenamiento e inferencia de IA, A100 ofrece una aceleración de 6x para FP32, 3x para FP16 y una aceleración de 7x en inferencia cuando se usan todas esas GPU juntas.

Tenga en cuenta que el V100 marcado en el segundo gráfico es el servidor V100 de 8 GPU, no un solo V100.

NVIDIA también promete una aceleración de hasta el doble en muchas cargas de trabajo de HPC:

En cuanto a los números de TFLOP sin procesar, el rendimiento de doble precisión del A100 FP64 es de 20 TFLOP, frente a 8 para el V100 FP64. En definitiva, estas aceleraciones son una verdadera mejora generacional con respecto a Turing y son una gran noticia para el espacio de la inteligencia artificial y el aprendizaje automático.

TensorFloat-32: un nuevo formato numérico optimizado para núcleos tensoriales

Con Ampere, NVIDIA está utilizando un nuevo formato numérico diseñado para reemplazar FP32 en algunas cargas de trabajo. Esencialmente, FP32 usa 8 bits para el rango del número (qué tan grande o pequeño puede ser) y 23 bits para la precisión.

La afirmación de NVIDIA es que estos 23 bits de precisión no son del todo necesarios para muchas cargas de trabajo de IA, y se pueden obtener resultados similares y un rendimiento mucho mejor con solo 10 de ellos. Este nuevo formato se llama Tensor Float 32 y los Tensor Cores del A100 están optimizados para manejarlo. Así es, además de la reducción de troqueles y el aumento del recuento de núcleos, cómo están obteniendo una enorme aceleración de 6 veces en el entrenamiento de IA.

Afirman que “los usuarios no tienen que realizar ningún cambio de código, porque TF32 solo se ejecuta dentro de la GPU A100. TF32 opera en entradas FP32 y produce resultados en FP32. Las operaciones sin tensor continúan usando FP32”. Esto significa que debería ser un reemplazo directo para cargas de trabajo que no necesitan precisión adicional.

Al comparar el rendimiento de FP en el V100 con el rendimiento de TF en el A100, verá de dónde provienen estas enormes aceleraciones. TF32 es hasta diez veces más rápido. Por supuesto, mucho de esto también se debe a que las otras mejoras en Ampere son dos veces más rápidas en general, y no es una comparación directa.

También han introducido un nuevo concepto llamado escasez estructurada de grano fino, que contribuye al rendimiento informático de las redes neuronales profundas. Básicamente, ciertos pesos son menos importantes que otros y las matemáticas de la matriz se pueden comprimir para mejorar el rendimiento. Si bien descartar datos no parece una gran idea, afirman que no afecta la precisión de la red entrenada para la inferencia y simplemente acelera.

Para los cálculos de Sparse INT8, el rendimiento máximo de un solo A100 es 1250 TFLOPS, un número asombrosamente alto. Por supuesto, será difícil encontrar una carga de trabajo real que ejecute solo INT8, pero las aceleraciones son aceleraciones.