NVIDIA Amplía los Modelos de Lenguaje Grande a la Biología

Las empresas farmacéuticas líderes, las startups de biotecnología y los investigadores pioneros en biología están desarrollando aplicaciones de IA con el servicio y el framework NVIDIA BioNeMo LLM para generar, predecir y comprender datos biomoleculares.
por Abraham Stern

A medida que los científicos buscan nuevos conocimientos sobre el ADN, las proteínas y otros componentes básicos de la vida, el framework NVIDIA BioNeMo, anunciado hoy en NVIDIA GTC, acelerará su investigación.

NVIDIA BioNeMo es un framework para entrenar e implementar grandes modelos de lenguaje biomolecular a escala de supercomputación, lo que ayuda a los científicos a comprender mejor las enfermedades y encontrar terapias para los pacientes. El framework del modelo de lenguaje grande (LLM) admitirá formatos de datos de química, proteínas, ADN y ARN.

Forma parte de la colección NVIDIA Clara Discovery de frameworks, aplicaciones y modelos de IA para el descubrimiento de fármacos.

Así como la IA está aprendiendo a comprender los lenguajes humanos con LLM, también está aprendiendo los lenguajes de la biología y la química. Al facilitar el entrenamiento de redes neuronales masivas en datos biomoleculares, NVIDIA BioNeMo ayuda a los investigadores a descubrir nuevos patrones y conocimientos en secuencias biológicas, conocimientos que los investigadores pueden conectar con propiedades o funciones biológicas, e incluso con las condiciones de salud humana.

NVIDIA BioNeMo proporciona un framework para que los científicos entrenen modelos de transformadores a gran escala utilizando conjuntos de datos más grandes, lo que da como resultado redes neuronales de mejor rendimiento. estará disponible en acceso anticipado en NVIDIA GPU Cloud, un centro de software optimizado para GPU.

Además del framework del modelo de lenguaje, NVIDIA BioNeMo tiene un servicio de API en el cloud con modelos de IA preentrenados.

Framework BioNeMo Admite Modelos Más Grandes y Mejores Predicciones

 Los científicos que utilizan modelos de procesamiento de lenguaje natural para datos biológicos en la actualidad a menudo entrenan redes neuronales relativamente pequeñas que requieren un preprocesamiento personalizado. Al adoptar BioNeMo, pueden escalar a LLM con miles de millones o billones de parámetros que capturan información sobre la estructura molecular, la solubilidad de las proteínas y más.

BioNeMo es una extensión del framework NVIDIA NeMo Megatron para el entrenamiento acelerado por GPU de modelos de lenguaje autosupervisados ​​a gran escala. Es específico del dominio, diseñado para admitir datos moleculares representados en la notación SMILES para estructuras químicas y en cadenas de secuencias FASTA para aminoácidos y ácidos nucleicos.

“El framework permite a los investigadores del área de la salud y las ciencias de la vida aprovechar sus conjuntos de datos biológicos y químicos en rápido crecimiento”, dijo Mohammed AlQuraishi, miembro fundador del Consorcio OpenFold y profesor asistente en el Departamento de Biología de Sistemas de la Universidad de Columbia. «Esto facilita el descubrimiento y el diseño de terapias que se dirigen con precisión a la firma molecular de una enfermedad».

El Servicio BioNeMo Presenta LLM para Química y Biología

 Para los desarrolladores que buscan comenzar rápidamente con LLM para aplicaciones de química y biología digital, el servicio NVIDIA BioNeMo LLM incluye tres modelos de lenguaje preentrenados. Estos están optimizados para la inferencia y están disponibles con acceso anticipado a través de una API en el cloud que se ejecuta en NVIDIA DGX Foundry.

  • ESM-1b: esta proteína LLM, publicada originalmente por Meta AI Labs, procesa secuencias de aminoácidos para generar representaciones que pueden usarse para predecir una amplia variedad de propiedades y funciones de proteínas. También mejora la capacidad de los científicos para comprender la estructura de las proteínas.
  • OpenFold: el consorcio público-privado que crea herramientas de modelado de proteínas de última generación hará que su pipeline de IA de código abierto sea accesible a través del servicio BioNeMo.
  • MegaMolBART: entrenado en 1400 millones de moléculas, este modelo de química generativa se puede utilizar para la predicción de reacciones, la optimización molecular y la generación molecular de novo.
  • ProtT5: el modelo, desarrollado en una colaboración liderada por RostLab de la Universidad Técnica de Munich y que incluye a NVIDIA, amplía las capacidades de los LLM de proteínas como ESM-1b para la generación de secuencias.

En el futuro, los investigadores que utilicen el servicio BioNeMo LLM podrán personalizar los modelos LLM para una mayor precisión en sus aplicaciones en unas pocas horas, con ajustes finos y nuevas técnicas como p-tuning, un método de entrenamiento que requiere un conjunto de datos con solo unos pocos cientos de ejemplos en lugar de millones.

Startups, Investigadores y Empresas Farmacéuticas que Adoptan NVIDIA BioNeMo

Una ola de expertos en biotecnología y farmacéutica está adoptando NVIDIA BioNeMo para respaldar la investigación de descubrimiento de fármacos.

  • AstraZeneca y NVIDIA han utilizado la supercomputadora Cambridge-1 para desarrollar el modelo MegaMolBART incluido en el servicio BioNeMo LLM. La compañía biofarmacéutica utilizará el framework BioNeMo para ayudar a entrenar algunos de los modelos de lenguaje más grandes del mundo en conjuntos de datos de moléculas pequeñas, proteínas y, pronto, ADN.
  • Investigadores del Broad Institute of MIT y Harvard están trabajando con NVIDIA para desarrollar modelos de transformadores de ADN de próxima generación utilizando el framework BioNeMo. Estos modelos se integrarán en Terra, una plataforma en el cloud desarrollada conjuntamente por Broad Institute, Microsoft y Verily que permite a los investigadores biomédicos compartir, acceder y analizar datos de forma segura y a escala. Los modelos de IA también se agregarán a la colección del servicio BioNeMo.
  • Evozyne, una empresa de biotecnología con sede en Chicago, combina ingeniería y tecnología de Deep learning para diseñar proteínas novedosas para resolver desafíos de larga data en la terapéutica y la sostenibilidad. El framework BioNeMo permitirá el desarrollo de transformadores de proteínas generativos de Evozyne que mejoran las capacidades actuales de ingeniería de proteínas.
  • El consorcio OpenFold planea utilizar el framework BioNeMo para avanzar en su trabajo de desarrollo de modelos de IA que pueden predecir estructuras moleculares a partir de secuencias de aminoácidos con una precisión casi experimental.
  • Peptone se centra en el modelado de proteínas intrínsecamente desordenadas, proteínas que carecen de una estructura 3D estable. La empresa está trabajando con NVIDIA para desarrollar versiones del modelo ESM utilizando el framework NeMo, en el que también se basa BioNeMo. El proyecto, que está programado para ejecutarse en la supercomputadora Cambridge-1 de NVIDIA, impulsará el trabajo de descubrimiento de fármacos de Peptone.

“El framework BioNeMo es una tecnología que permite aprovechar de manera eficiente el poder de los LLM para el diseño de proteínas basado en datos dentro de nuestro ciclo de diseño, construcción y prueba”, dijo Andrew Ferguson, cofundador y jefe de computación de Evozyne. “Esto tendrá un impacto inmediato en nuestro diseño de nuevas proteínas funcionales, con aplicaciones en la salud humana y la sostenibilidad”.

“A medida que vemos la adopción cada vez mayor de grandes modelos de lenguaje en el espacio de las proteínas, ser capaz de entrenar LLM de manera eficiente y modular rápidamente las arquitecturas de modelos se vuelve muy importante”, dijo Istvan Redl, líder de machine learning en Peptone, , una startup biotecnológica del programa NVIDIA Inception. “Creemos que estos dos aspectos de ingeniería, escalabilidad y experimentación rápida son exactamente lo que podría proporcionar el framework BioNeMo”.

Regístrese para obtener acceso anticipado al servicio NVIDIA BioNeMo LLMb o al framework BioNeMo, disponible en acceso anticipado en NGC. Para obtener experiencia práctica con el modelo químico MegaMolBART en BioNeMo, solicite un laboratorio gratuito de NVIDIA LaunchPad sobre capacitación e implementación de LLM.

Descubra lo último en IA y el área de la salud en GTC, disponible en línea hasta el jueves 22 de septiembre. La inscripción es gratuita.

 Vea el discurso de apertura de GTC del fundador y director ejecutivo de NVIDIA, Jensen Huang, a continuación: