Imagina tratar de enseñarle a un niño pequeño lo que es un unicornio. Una buena manera de comenzar podría ser mostrando las imágenes infantiles de la criatura y describiendo sus características únicas.
Imagina ahora que quieres enseñarle a una máquina artificialmente inteligente lo que es un unicornio. ¿Dónde comenzarías?
Los modelos de IA previamente entrenados ofrecen una solución.
Un modelo de IA previamente entrenado es un modelo de deep learning, una expresión de un algoritmo neuronal similar al cerebro que encuentra patrones o hace predicciones basadas en datos, que se entrena con grandes conjuntos de datos para realizar una tarea específica. Se puede usar tal cual o ajustarse aún más para satisfacer las necesidades específicas de una aplicación.
¿Por Qué Se Utilizan Modelos de IA Previamente Entrenados?
En lugar de desarrollar un modelo de IA desde cero, los desarrolladores pueden usar modelos previamente entrenados y personalizarlos para que cumplan con sus requisitos.
Para crear una aplicación de IA, los desarrolladores primero necesitan un modelo de IA que pueda realizar una tarea en particular, ya sea identificando un caballo mítico, detectando un peligro de seguridad para un vehículo autónomo o diagnosticando un cáncer basado en imágenes médicas. Ese modelo necesita una gran cantidad de datos representativos para aprender.
Este proceso de aprendizaje implica atravesar varias capas de datos entrantes y hacer hincapié en las características relevantes para los objetivos en cada capa.
Para crear un modelo que pueda reconocer un unicornio, por ejemplo, uno podría incorporar primero imágenes de unicornios, caballos, gatos, tigres y otros animales. Estos son los datos de entrada.
Luego, se construyen capas de rasgos de datos representativos, que comienzan con lo simple, como líneas y colores, y avanzan hacia características estructurales complejas. Estas características se asignan a grados variables de relevancia calculando las probabilidades.
A diferencia de un gato o un tigre, por ejemplo, cuanto más parecida es una criatura a un caballo, mayor es la probabilidad de que sea un unicornio. Estos valores probabilísticos se almacenan en cada capa de las redes neuronales del modelo de IA y, a medida que se agregan capas, su comprensión de la representación mejora.
Para crear tal modelo desde cero, los desarrolladores requieren enormes conjuntos de datos, a menudo con miles de millones de filas de datos. Pueden ser costosos y desafiantes de obtener, pero comprometer los datos puede provocar un rendimiento deficiente del modelo.
Las representaciones probabilísticas precomputadas, conocidas como pesos, ahorran tiempo, dinero y esfuerzo. Un modelo previamente entrenado ya está construido y entrenado con estos pesos.
El uso de un modelo previamente entrenado de alta calidad con una gran cantidad de pesos representativos precisos permite mayores probabilidades de éxito para la implementación de IA. Los pesos se pueden modificar y se pueden agregar más datos al modelo para personalizarlos o ajustarlos aún más.
Los desarrolladores que se basan en modelos previamente entrenados pueden crear aplicaciones de IA más rápido, sin tener que preocuparse por manejar montañas de datos de entrada o probabilidades de computación para capas densas.
En otras palabras, usar un modelo de IA previamente entrenado es como conseguir un vestido o una remera y luego modificar la prenda para que se adapte a tus necesidades, en lugar de comenzar a crearla desde cero con tela, hilo y aguja.
Los modelos de IA previamente entrenados a menudo se utilizan para el aprendizaje de transferencia y se pueden basar en varios tipos de arquitecturas de modelos. Un tipo de arquitectura popular es el modelo transformer, una red neuronal que aprende contexto y significado mediante el seguimiento de relaciones en datos secuenciales.
Según Alfredo Ramos, vicepresidente sénior de plataforma de la empresa de IA Clarifai, un socio Premier del programa NVIDIA Inception para startups, los modelos previamente entrenados pueden reducir el tiempo de desarrollo de las aplicaciones de IA hasta en un año y lograr ahorros de costos de cientos de miles de dólares.
¿Cómo los Modelos Previamente Entrenados Avanzan la IA?
Dado que los modelos previamente entrenados simplifican y aceleran el desarrollo de IA, muchos desarrolladores y empresas los utilizan para acelerar varios casos de uso de IA.
Las principales áreas en las que los modelos previamente entrenados están avanzando en la IA incluyen las siguientes:
- Procesamiento de idiomas naturales. Los modelos previamente entrenados se utilizan para la traducción, los chatbots y otras aplicaciones de procesamiento de idiomas naturales. Los grandes modelos de idiomas, a menudo basados en la arquitectura del modelo transformer, son una extensión de los modelos previamente entrenados. Un ejemplo de un LLM previamente entrenado es NVIDIA NeMo Megatron, uno de los modelos de IA más grandes del mundo.
- IA de habla. Los modelos previamente entrenados pueden ayudar a las aplicaciones de IA de habla a conectarse en diferentes idiomas. Los casos de uso incluyen las tecnologías de automatización de centros de llamadas, de asistentes de IA y de reconocimiento de voz.
- Visión de computación. Al igual que en el ejemplo anterior del unicornio, los modelos previamente entrenados pueden ayudar a la IA a reconocer rápidamente criaturas, u objetos, lugares y personas. De esta manera, los modelos previamente entrenados aceleran la visión de computación, lo que brinda a las aplicaciones capacidades de visión similares a las humanas en los deportes, las ciudades inteligentes y más.
- Atención de la salud. Para las aplicaciones de atención de la salud, los modelos de IA previamente entrenados como MegaMolBART, parte del servicio y el framework NVIDIA BioNeMo, pueden comprender el lenguaje de la química y aprender las relaciones entre átomos en moléculas del mundo real, lo que brinda a la comunidad científica una herramienta poderosa para acelerar el descubrimiento de fármacos.
- Ciberseguridad. Los modelos previamente entrenados proporcionan un punto de partida para implementar soluciones de ciberseguridad basadas en IA y ampliar las capacidades de los analistas de seguridad humana a fin de detectar amenazas más rápido. Los ejemplos incluyen las huellas digitales de humanos y máquinas, y la detección de anomalías, información confidencial y suplantación de identidad.
- Workflows creativos y artísticos. Para impulsar la reciente ola de arte de IA, los modelos previamente entrenados pueden ayudar a acelerar los workflows creativos a través de herramientas como GauGAN y NVIDIA Canvas.
Los modelos de IA previamente entrenados se pueden aplicar en diferentes industrias, ya que su personalización y ajuste pueden generar infinitas posibilidades para los casos de uso.
Dónde Encontrar Modelos de IA Previamente Entrenados
Empresas como Google, Meta, Microsoft y NVIDIA están inventando frameworks y arquitecturas de modelos de vanguardia para desarrollar modelos de IA.
A veces, estos se lanzan en centros de modelos o como código abierto, lo que permite a los desarrolladores ajustar los modelos de IA previamente entrenados, mejorar su precisión y expandir los repositorios de modelos.
NVIDIA NGC, un centro de ejemplos de jupyter notebooks, modelos y software de IA optimizados por GPU, incluye modelos previamente entrenados, evaluaciones de IA y recetas de entrenamiento optimizadas para su uso con la plataforma de IA de NVIDIA.
NVIDIA AI Enterprise, un conjunto de software de análisis de datos e IA totalmente administrado, seguro y nativo del cloud, incluye modelos previamente entrenados sin encriptación. Esto permite a los desarrolladores y empresas que buscan integrar modelos previamente entrenados de NVIDIA en sus aplicaciones de IA personalizadas para ver los pesos y los sesgos de los modelos, mejorar la explicabilidad y depurar fácilmente.
Miles de modelos de código abierto también están disponibles en centros como GitHub, Hugging Face y otros.
Es importante que los modelos previamente entrenados se entrenen utilizando datos éticos que son transparentes y explicables, que cumplen con la privacidad, y se obtienen con consentimiento y sin sesgos.
Modelos de IA Previamente Entrenados de NVIDIA
Para ayudar a más desarrolladores a pasar de la IA del prototipo a la producción, NVIDIA ofrece varios modelos previamente entrenados que se pueden implementar desde el primer momento, que incluyen:
- NVIDIA SegFormer, un modelo transformer para la segmentación semántica simple, eficiente y potente, disponible en GitHub.
- Los modelos de visión de computación diseñados específicamente de NVIDIA, que están entrenados con millones de imágenes para ciudades inteligentes, administración de estacionamiento y otras aplicaciones.
- NVIDIA NeMo Megatron, el modelo de idiomas personalizables más grande del mundo, como parte de NVIDIA NeMo, un framework de código abierto para crear aplicaciones flexibles y de alto rendimiento para la IA conversacional, la IA de habla y la biología.
- NVIDIA StyleGAN, una arquitectura de generador basada en estilo para redes generativas antagónicas, o GAN. Utiliza el aprendizaje por transferencia para generar pinturas infinitas en una variedad de estilos.
Además, NVIDIA Riva, un kit de desarrollo de software acelerado por GPU para crear e implementar aplicaciones de IA de habla, incluye modelos previamente entrenados en diez idiomas.
Además, MONAI, un framework de IA de código abierto para la investigación de la atención de la salud desarrollado por NVIDIA y el King’s College de Londres, incluye modelos previamente entrenados para la generación de imágenes médicas.
Más Información sobre los Modelos Previamente Entrenados de NVIDIA.