UK Biobank está ampliando el acceso de los científicos a datos y análisis genómicos de alta calidad al hacer que su conjunto de datos masivo esté disponible en el cloud junto con las herramientas de análisis aceleradas por GPU de NVIDIA.
Utilizado por más de 25 000 investigadores registrados en todo el mundo, UK Biobank es una base de datos biomédica a gran escala y un recurso de investigación con conjuntos de datos genéticos no identificados, junto con imágenes médicas y datos de registros de salud, de más de 500,000 participantes en todo el Reino Unido.
Regeneron Genetics Center, el centro de secuenciación de alto rendimiento del líder en biotecnología Regeneron, se asoció recientemente con UK Biobank para secuenciar y analizar los exomas (todas las partes del genoma que codifican proteínas) de todos los participantes del biobanco.
El equipo de Regeneron utilizó NVIDIA Clara Parabricks, un paquete de software para el análisis genómico secundario de los datos de secuenciación de próxima generación, durante el proceso de secuenciación del exoma.
UK Biobank ha liberado 450,000 de estos exomas para que los investigadores autorizados puedan acceder a ellos y ahora proporciona a los científicos seis meses de acceso gratuito a Clara Parabricks a través de su plataforma de análisis de investigación basada en el cloud. Fue desarrollado por la plataforma de bioinformática DNAnexus, que permite a los científicos utilizar Clara Parabricks ejecutándose en GPU NVIDIA en el cloud de AWS.
“Como demostró Regeneron, la aceleración de GPU con Clara Parabricks logra los rendimientos, la velocidad y la reproducibilidad necesarios cuando se procesan conjuntos de datos genómicos a escala”, dijo el Dr. Mark Effingham, director ejecutivo adjunto de UK Biobank. «Hay una serie de grupos de investigación en el Reino Unido que estaban presionando para que estas herramientas aceleradas estuvieran disponibles en nuestra plataforma para su uso con nuestro extenso conjunto de datos».
Investigación del Exoma de Regeneron Acelerada por Clara Parabricks
Los investigadores de Regeneron utilizaron DeepVariant Germline Pipeline de NVIDIA Clara Parabricks para ejecutar su análisis con un modelo específico para el workflow del centro genético.
Sus investigadores identificaron 12 millones de variantes de codificación y cientos de genes asociados con rasgos relacionados con la salud: ciertos genes se asociaron con un mayor riesgo de enfermedad hepática y ocular, y otros se vincularon con un menor riesgo de diabetes y asma.
El conjunto único de herramientas que utilizaron los investigadores para la detección de variantes de alta calidad está disponible para los usuarios registrados de UK Biobank a través de la Plataforma de Análisis de Investigación. Esta capacidad permitirá a los científicos armonizar sus propios datos de exoma con datos de exoma secuenciados de UK Biobank mediante la ejecución de la misma canalización de bioinformática utilizada para generar el conjunto de datos de referencia inicial.
La Plataforma Basada en en Cloud Mejora la Equidad de Acceso
Los investigadores que descifran los códigos genéticos de los humanos, y de los virus y bacterias que infectan a los humanos, a menudo pueden verse limitados por los recursos computacionales disponibles para ellos.
UK Biobank está democratizando el acceso al hacer que su conjunto de datos esté abierto a científicos de todo el mundo, con un enfoque en ampliar aún más el uso por parte de los investigadores que inician su carrera y aquellos en países de ingresos bajos y medios. En lugar de que los investigadores necesiten descargar este enorme conjunto de datos para usarlo en sus propios recursos de computación, pueden acceder a la plataforma en el cloud de UK Biobank a través de un navegador web.
“Investigadores y médicos se pusieron en contacto con nosotros que querían acceder a los datos de UK Biobank, pero tenían dificultades para acceder a la computación básica necesaria para trabajar incluso con datos a una escala relativamente pequeña”, dijo Effingham. “La plataforma basada en el cloud brinda acceso a la tecnología de clase mundial necesaria para la secuenciación del exoma a gran escala y el análisis de la secuenciación del genoma completo”.
Los investigadores que usan la plataforma pagan solo por el costo computacional de sus análisis y por el almacenamiento de nuevos datos que generan a partir del conjunto de datos a escala de petabytes del biobanco, dijo Effingham.
El uso de Clara Parabricks en DNAnexus ayuda a reducir tanto el tiempo como el costo de este análisis genómico, brindando un análisis de exoma completo que requeriría casi una hora de cómputo en una máquina de 32 vCPU en menos de cinco minutos, al mismo tiempo que reduce el costo en aproximadamente un 40 por ciento. .
La Secuenciación del Exoma Proporciona Información para la Medicina de Precisión
Para los investigadores que estudian los vínculos entre la genética y la enfermedad, la secuenciación del exoma es una herramienta fundamental, y el conjunto de datos de UK Biobank incluye casi medio millón de exomas participantes para trabajar.
El exoma es aproximadamente el 1,5 por ciento del genoma humano y consta de todos los genes conocidos y sus elementos reguladores. Al estudiar la variación genética en los exomas en una población grande y diversa, los científicos pueden comprender mejor la estructura de la población, lo que ayuda a los investigadores a abordar cuestiones evolutivas y describir cómo funciona el genoma.
Con un conjunto de datos tan grande como el de UK Biobank , también es posible identificar las variantes genéticas específicas asociadas con enfermedades hereditarias, incluidas las enfermedades cardiovasculares, las afecciones neurodegenerativas y algunos tipos de cáncer.
La secuenciación del exoma puede incluso arrojar luz sobre posibles impulsores genéticos que podrían aumentar o disminuir el riesgo de una persona de padecer una enfermedad grave por la infección por COVID-19, dijo Effingham. A medida que continúa la pandemia, UK Biobank está agregando a su base de datos datos de casos de COVID, estado de vacunación, datos de imágenes y resultados de pacientes para miles de participantes.
Comience con NVIDIA Clara Parabricks en la Plataforma de Análisis de Investigación de UK Biobank desarrollada por DNAnexus. Obtenga más información sobre el proyecto de secuenciación del exoma registrándose en este seminario web, que tendrá lugar el 17 de febrero a las 10a.m. (hora Ciudad de Mexico).
Suscríbete a las noticias de la área de la salud de NVIDIA aquí.
La imagen principal muestra las instalaciones de congelación del UK Biobank, donde se almacenan las muestras de los participantes. Imagen cortesía de UK Biobank.