El Modelo de Base Masiva para Ciencias Biomoleculares Ya Está Disponible A Través de NVIDIA BioNeMo

Evo 2, un nuevo y potente modelo de IA creado con NVIDIA DGX Cloud en Amazon Web Services (AWS), proporciona información sobre el ADN, el ARN y las proteínas de diversas especies.
por Anthony Costa

Los científicos de todo el mundo ya pueden acceder a Evo 2, un nuevo y potente modelo de base que comprende el código genético de todos los dominios de la vida. Presentado como el modelo de IA más grande disponible públicamente para datos genómicos, se construyó sobre la plataforma NVIDIA DGX Cloud en una colaboración liderada por la organización de investigación biomédica sin fines de lucro Arc Institute y la Universidad de Stanford.

Evo 2 está disponible para desarrolladores globales en la plataforma NVIDIA BioNeMo, incluso como un microservicio NVIDIA NIM para una implementación de IA fácil y segura.

Entrenado en un enorme conjunto de datos de casi 9 billones de nucleótidos, los componentes básicos del ADN y el ARN, Evo 2 se puede aplicar a aplicaciones de investigación biomolecular, incluida la predicción de la forma y la función de las proteínas en función de su secuencia genética, la identificación de moléculas nuevas para aplicaciones industriales y del área de la salud, y la evaluación de cómo las mutaciones genéticas afectan su función.

«Evo 2 representa un hito importante para la genómica generativa», dijo Patrick Hsu, cofundador e investigador principal del Arc Institute, y profesor asistente de bioingeniería en la Universidad de California, Berkeley. «Al avanzar en nuestra comprensión de estos componentes fundamentales de la vida, podemos buscar soluciones en la ciencia de la salud y el medio ambiente que son inimaginables hoy en día».

El microservicio NVIDIA NIM para Evo 2 permite a los usuarios generar una variedad de secuencias biológicas, con configuraciones para ajustar los parámetros del modelo. Los desarrolladores interesados en afinar Evo 2 en sus conjuntos de datos propietarios pueden descargar el modelo a través del Framework NVIDIA BioNeMo de código abierto, una colección de herramientas de computación acelerada para la investigación biomolecular.

«El diseño de una nueva biología ha sido tradicionalmente un proceso laborioso, impredecible y artesanal», dijo Brian Hie, profesor asistente de ingeniería química en la Universidad de Stanford, miembro de la Facultad de Ciencias de Datos de Stanford de la Fundación Dieter Schwarz e investigador de innovación del Arc Institute. «Con Evo 2, hacemos que el diseño biológico de sistemas complejos sea más accesible para los investigadores, lo que permite la creación de avances nuevos y beneficiosos en una fracción del tiempo que habría llevado anteriormente».

Habilitación de la Investigación Científica Compleja

Establecido en 2021 con 650 millones de dólares de sus donantes fundadores, el Arc Institute empodera a los investigadores para abordar desafíos científicos a largo plazo al proporcionar a los científicos fondos plurianuales, lo que permite a los científicos centrarse en la investigación innovadora en lugar de en la redacción de subvenciones.

Sus investigadores principales reciben espacio de laboratorio de última generación y fondos por períodos renovables de ocho años que se pueden mantener al mismo tiempo que los nombramientos de profesores con una de las universidades asociadas del instituto, que incluyen la Universidad de Stanford, la Universidad de California, Berkeley y la Universidad de California, San Francisco.

Al combinar este entorno de investigación único con la experiencia en computación acelerada y los recursos de NVIDIA, los investigadores de Arc Institute pueden llevar a cabo proyectos más complejos, analizar conjuntos de datos más grandes y lograr resultados más rápidamente. Sus científicos se centran en áreas de enfermedades como el cáncer, la disfunción inmunitaria y la neurodegeneración.

NVIDIA aceleró el proyecto Evo 2 al dar a los científicos acceso a 2.000 GPU NVIDIA H100 a través de NVIDIA DGX Cloud en AWS. DGX Cloud proporciona acceso a corto plazo a grandes clústeres de cómputo, lo que brinda a los investigadores la flexibilidad para innovar. La plataforma de IA totalmente gestionada incluye NVIDIA BioNeMo, que cuenta con software optimizado en forma de microservicios NVIDIA NIM y NVIDIA BioNeMo Blueprints.

Los investigadores e ingenieros de NVIDIA también colaboraron estrechamente en el escalado y la optimización de la IA.

Aplicaciones en Ciencias Biomoleculares

Evo 2 puede proporcionar información sobre el ADN, el ARN y las proteínas. Entrenado en una amplia gama de especies en todos los dominios de la vida, incluidas plantas, animales y bacterias, el modelo se puede aplicar a campos científicos como el área de la salud, la biotecnología agrícola y la ciencia de los materiales.

Evo 2 utiliza una arquitectura de modelo novedosa que puede procesar largas secuencias de información genética, hasta 1 millón de tokens. Esta visión ampliada del genoma podría desbloquear la comprensión de los científicos de la conexión entre partes distantes del código genético de un organismo y la mecánica de la función celular, la expresión génica y la enfermedad.

«Un solo gen humano contiene miles de nucleótidos, por lo que para que un modelo de IA analice cómo funcionan sistemas biológicos tan complejos, necesita procesar la mayor porción posible de una secuencia genética a la vez», dijo Hsu.

En el ámbito de la salud y el descubrimiento de fármacos, Evo 2 podría ayudar a los investigadores a comprender qué variantes genéticas están relacionadas con una enfermedad específica, y diseñar moléculas novedosas que se dirijan con precisión a esas áreas para tratar la enfermedad. Por ejemplo, investigadores de Stanford y el Arc Institute descubrieron que en pruebas con BRCA1, un gen asociado con el cáncer de mama, Evo 2 podía predecir con un 90% de precisión si mutaciones no reconocidas previamente afectarían la función de los genes.

En la agricultura, el modelo podría ayudar a abordar la escasez mundial de alimentos al proporcionar información sobre la biología de las plantas y ayudar a los científicos a desarrollar variedades de cultivos que sean más resistentes al clima o más densas en nutrientes. Y en otros campos científicos, Evo 2 podría aplicarse para diseñar biocombustibles o diseñar proteínas que descompongan el petróleo o el plástico.

«Desplegar un modelo como el Evo 2 es como enviar un nuevo y potente telescopio a los confines más lejanos del universo», dijo Dave Burke, director de tecnología de Arc. «Sabemos que hay una inmensa oportunidad para la exploración, pero aún no sabemos lo que vamos a descubrir».

Obtén más información sobre Evo 2 en el blog técnico de NVIDIA y en el informe técnico de Arc.

Consulte el aviso sobre la información del producto de software.