Un estudio nacional reciente propuso una solución computacional para comparar secuencias de ADN de cadena larga. El resultado fue la comparación más rápida de cromosomas entre un ser humano y un chimpancé, en este caso, específicamente entre el cromosoma 1 humano y el cromosoma 1 de chimpancé. Este nuevo código desarrollado puede ayudar a la investigación en el área de la salud y los medicamentos a encontrar respuestas asertivas en el diagnóstico de patologías y desarrollo de tratamientos en menos tiempo. El investigador brasileño Marco Figueiredo Jr. (UnB), junto con los investigadores Edans Sandes (UnB), João Paulo Navarro (NVIDIA) y George Teodoro (UFMG) firmaron el estudio coordinado por la investigadora Alba Cristina Magalhães Alves de Melo (UnB), pionera en estudios sobre el tema en Brasil.
Con la solución brasileña, se necesitan sólo 11 minutos para obtener la impresionante tasa de 82.822 GCUPS (mil millones de celdas actualizadas por segundo). Este resultado es, hasta la fecha, el mejor desempeño jamás registrado. Para lograr esta hazaña, los investigadores utilizaron un clúster con 512 GPU NVIDIA V100. El estudio fue presentado en la edición 2020 de la conferencia PDP (Euromicro Conference on Parallel, Distributed and Network-Based Processing) en Västerås, Suecia, y publicado en la prestigiosa revista IEEE Transactions on Parallel and Distributed Systems.
“Las aplicaciones en Bioinformática suelen requerir algoritmos paralelos y dispositivos con alto poder computacional para obtener un rendimiento significativo. En esta investigación, pudimos combinar estos dos aspectos para comparar largas secuencias de ADN en GPU. La solución propuesta tiene dos estrategias de distribución de carga de trabajo entre GPU y fue probada en dispositivos NVIDIA de diferentes arquitecturas. Los resultados obtenidos muestran que aún es posible avanzar en la investigación sobre este tema, con el objetivo de diseñar soluciones compatibles con ambientes de diferentes tamaños, pero siempre buscando mejorar el desempeño en cada escenario”, explica uno de los investigadores, Marco Figueirêdo.
El análisis genómico es el punto de encuentro entre la biología, la computación y la ciencia de datos. En los últimos años, los líderes de la industria bioinformática y las instituciones de investigación de todo el mundo han confiado en herramientas aceleradas para el análisis genómico en las GPU NVIDIA. Esta tecnología ha impulsado la identificación de variantes genéticas que podrían revelar nuevos descubrimientos sobre la salud humana.
“Aunque la comparación entre secuencias biológicas es una tarea bien conocida en aplicaciones bioinformáticas, todavía requiere soluciones computacionales paralelizables y hardware de alto rendimiento. Por eso el uso de la tecnología NVIDIA Enterprise es fundamental para los sorprendentes resultados que demostraron los investigadores brasileños”, dice Marcio Aguiar, director de NVIDIA Enterprise para América Latina. “Siempre es una gran alegría ayudar a los investigadores brasileños a romper barreras científicas. Lo que demuestra una vez más el gran potencial que tiene el país en innovación y salud”.
Secuenciación Genética
Las GPU de NVIDIA forman parte de la arquitectura computacional utilizada para ejecutar soluciones de este tipo. Además, ya están previstos algunos algoritmos, como el de Smith-Waterman (SW), que permite obtener un resultado óptimo al comparar secuencias. Para comparar el cromosoma 1 humano con el cromosoma 1 de chimpancé (249 millones de pares de bases – MBP x 228 MBP), se requieren al menos 240 petabytes de memoria. Esta comparación de software se consideró inviable en 2008 debido a la tecnología utilizada hasta entonces.
A lo largo de los años, paralelizar herramientas de comparación de secuencias SW para secuencias largas de ADN ha sido un gran desafío, que requiere el uso de diversos dispositivos y optimizaciones sofisticadas. La poda es una de esas optimizaciones, que puede reducir considerablemente la cantidad de cálculo utilizado. CUDAlign, código que utiliza el lenguaje de programación de GPU de NVIDIA, CUDA, propone una implementación con poda de bloques (BP), que toma la decisión de poda en base a bloques de celdas, utilizando una sola GPU. SW# implementa la misma técnica BP propuesta por CUDAlign en múltiples GPU, pero está restringida a solo dos dispositivos.
En el estudio brasileño se proponen dos estrategias MultiBP. En el enfoque de puntuación estática compartida, la carga de trabajo se distribuye estáticamente a las GPU y la mejor puntuación se envía a las GPU vecinas para simular una vista global. En la estrategia dinámica, la ejecución se divide en ciclos y la carga de trabajo se asigna dinámicamente, según la velocidad de procesamiento de las GPU. MultiBP se integró en MASA-CUDAlign y se probó en plataformas homogéneas y heterogéneas, con diferentes arquitecturas de GPU NVIDIA. Los mejores resultados se obtuvieron principalmente con los enfoques estático y dinámico, respectivamente. El estudio también demostró que el módulo de decisión es capaz de seleccionar la mejor estrategia en la mayoría de los casos.
“El código desarrollado ya se ha compartido públicamente para que pueda ayudar en investigaciones relevantes para la salud humana en todo el mundo. Como desafío futuro, pretendemos mejorar nuestras estrategias MultiBP identificando qué características tienen el mayor impacto en los enfoques estáticos y dinámicos. También investigaremos si hay escenarios en los que sería beneficioso que el modo dinámico vuelva al modo estático”, concluye Marco Figueirêdo.