Frontier es el supercomputador más potente del mundo. El problema es que no consiguen hacerlo funcionar
El Frontier ya es el supercomputador más potente del mundo. Con sus 9.472 CPUs AMD EPYC de tercera generación y 37.888 GPUs Radeon Instinct MI250X ha conseguido hacerse con el deseado primer puesto de la lista TOP500. Hasta este punto, todo estupendo. Pero este impresionante aparato tiene un problema bastante particular: no puede funcionar un día entero sin presentar fallos.
Sabemos que montar un superordenador de tales características no es una tarea fácil. Se trata de un enrome desafío que consiste en integrar armoniosamente todas las piezas de hardware y software. Precisamente, algo en este proceso no está funcionando todo bien y, según InsideHPC, los investigadores del Laboratorio Nacional Oak Ridge podrían tener que esperar para empezar a utilizarlo.
El primer sistema a exaescala del mundo en ‘stand by’
Los contratiempos con el Frontier empezaron el año pasado y se extendieron hasta la primavera de este año. Se trataba de una serie de problemas relacionados a la HPE Cray Slingshot que impedían que pudiese obtener la certificación de “sistema a exaescala”. Superado este primer desafío, el supercomputador permaneció en la etapa de prueba e integración previa a su inicio de operaciones.
Sin embargo, los equipos del Oak Ridge y de HPE descubrieron un nuevo inconveniente. La estabilidad de Frontier está lejos de ser la esperada debido a que cuando se le somete cargas de trabajo muy exigentes —la razón por la que ha sido diseñado— empieza a dar fallos. Es decir, el supercomputador todavía no está listo para pasar esta especie de examen final para empezar a funcionar en el laboratorio.
Los responsables del proyecto creen que parte del problema puede tener su raíz en los aceleradores AMD Instinct 250X que son los encargados de soportar la mayor parte del estrés de funcionamiento y están conectados con los CPU AMD EPYC. No obstante, todavía se encuentran en la etapa de «entender» la complejidad del problema, aunque señalan que “no hay de qué preocuparse”.
Oak Ridge y HPE no han brindado demasiados detalles sobre los problemas que afectan al Frontier, pero desde el laboratorio dicen que este tipo de situaciones son esperables, principalmente en sistemas de gran escala. Eso sí, no solo se trata de un inconveniente puntual con el hardware de AMD, sino que los investigadores están lidiando con múltiples inconvenientes que esperan resolver este año.
Desde su inicio, el proyecto ha superado dos importantes desafíos. El primero fue el de la crisis de la cadena de suministros y el segundo los problemas previos a su certificación de exaescala. Este conjunto de factores retrasó unos tres meses su entrega para la etapa de pruebas. Ahora, la cuenta atrás está en marcha. El cronograma inicial establece que el Frontier debe ser entregado al laboratorio el 1 de enero de 2023.
Por lo pronto, solo queda esperar para saber si los científicos del Laboratorio Nacional Oak Ridge podrán empezar a utilizar el nuevo supercomputador el año próximo. Actualmente tienen bajo su poder el Summit, que es cuarto más potente del mudo según el TOP500. No obstante, se espera que el Frontier sea capaz de alcanzar una potencia pico de unos 2 exaFLOPS, lo que supone hasta 20 veces más potencia que el Summit.
Imágenes: OLCF at ORNL (Flickr)