La Base de la IA: Descodificación del Rol y la Importancia de los Modelos de Desarrollo

Aviso del editor: Este artículo forma parte de la serie IA Descodificada, que desmitifica la IA haciendo que la tecnología sea más accesible, mostrando nuevo hardware, software, herramientas y aceleraciones para usuarios de PC RTX.

Los rascacielos empiezan con cimientos fuertes. Lo mismo ocurre con las aplicaciones basadas en IA.

Un modelo de base es una red neuronal de IA entrenada a partir de inmensas cantidades de datos sin procesar, generalmente con aprendizaje no supervisado.

Es un tipo de modelo de inteligencia artificial entrenada para entender y generar un lenguaje similar al humano. Imagina que le das a un computador una enorme biblioteca de libros para que los lea y aprenda de ellos, de modo que pueda entender el contexto y el significado que hay detrás de las palabras y las frases, como hace un ser humano.

La profunda base de conocimientos de un modelo de base y su capacidad para comunicarse en lenguaje natural lo hacen útil para una amplia gama de aplicaciones, como la generación y resumen de textos, la producción de compilaciones y el análisis de códigos informáticos, la creación de imágenes y videos, y la transcripción de audio y la síntesis de voz.

ChatGPT, una de las aplicaciones de IA generativa más notables, es un chatbot construido con el modelo básico GPT de OpenAI. Ahora en su cuarta versión, GPT-4 es un gran modelo multimodal que puede procesar texto o imágenes y generar respuestas de texto o imagen.

Las aplicaciones online creadas a partir de modelos de base suelen acceder a ellos desde un centro de datos. Pero muchos de estos modelos, y las aplicaciones que utilizan, ahora pueden ejecutarse localmente en PC y estaciones de trabajo con GPU NVIDIA GeForce y NVIDIA RTX.

Usos del modelo de base

Los modelos de base pueden desempeñar diversas funciones, incluyendo:

Procesamiento del lenguaje: comprensión y generación de texto
Generación de código: análisis y depuración de código informático en numerosos lenguajes de programación
Procesamiento visual: análisis y generación de imágenes
Voz: generación de texto a voz y transcripción de voz a texto

Pueden utilizarse tal cual o perfeccionarse. En lugar de entrenar un modelo de IA completamente nuevo para cada aplicación de IA generativa -una tarea costosa y que lleva mucho tiempo-, los usuarios suelen ajustar los modelos básicos para casos de uso especializados.

Los modelos básicos previamente entrenados son muy capaces, gracias a los avisos y a técnicas de recuperación de datos como la generación de recuperación aumentada o RAG (retrieval-augmented generation). Los modelos de base también destacan en el aprendizaje por transferencia, lo que significa que pueden entrenarse para realizar una segunda tarea relacionada con su propósito original.

Por ejemplo, un gran modelo lingüístico (LLM) de propósito general diseñado para conversar con humanos puede entrenarse más para actuar como un chatbot de atención al cliente capaz de responder consultas utilizando una base de conocimientos corporativos.

Empresas de todos los sectores están afinando los modelos básicos para obtener el máximo rendimiento de sus aplicaciones de IA.

Tipos de Modelos de Base

En la actualidad se utilizan más de 100 modelos de cimentación, una cifra que sigue creciendo. Los LLM y los generadores de imágenes son los dos tipos de modelos más populares. Y muchos de ellos pueden probarse gratuitamente (en cualquier hardware) en el Catálogo de APIs de NVIDIA.

Los LLM son modelos que comprenden el lenguaje natural y pueden responder a consultas. Gemma, de Google, es un ejemplo: destaca en la comprensión de textos, la transformación y la generación de código. Cuando se le preguntó por el astrónomo Cornelius Gemma, compartió que sus «contribuciones a la navegación celeste y la astronomía tuvieron un impacto significativo en el progreso científico». También proporcionó información sobre sus principales logros, su legado y otros datos.

Ampliando la colaboración de los modelos Gemma, acelerados con NVIDIA TensorRT-LLM en GPUs RTX, CodeGemma de Google pone al alcance de la comunidad funciones de codificación potentes pero ligeras. Los modelos CodeGemma están disponibles como variantes 7B y 2B previamente entrenadas que se especializan en tareas de finalización y generación de código.

Mistral LLM de MistralAI puede seguir instrucciones, completar peticiones y generar textos creativos. De hecho, ayudó a idear el titular de este blog, incluyendo el requisito de que utilizara una variación del nombre de la serie «AI Descodificada», colaborando en la redacción de la definición de un modelo de fundación.

Meta’s Llama 2 es un LLM de última generación que genera texto y código en respuesta a instrucciones.

Mistral y Llama 2 están disponibles en la demo tecnológica NVIDIA ChatRTX, que se ejecuta en PC y estaciones de trabajo RTX. ChatRTX permite a los usuarios personalizar estos modelos de base conectándolos a contenidos personales -como documentos, notas médicas y otros datos- a través de RAG. Está acelerado por TensorRT-LLM para ofrecer respuestas rápidas y contextualmente relevantes. Y como se ejecuta localmente, los resultados son rápidos y seguros.

Los generadores de imágenes como Stable Diffusion XLy SDXL Turbo de StabilityAI permiten a los usuarios generar imágenes y efectos visuales asombrosos y realistas. El generador de video de StabilityAI, Stable Video Diffusion, utiliza un modelo de difusión generativa para sintetizar secuencias de video con una sola imagen como fotograma condicionante.

Los modelos de base multimodal pueden procesar simultáneamente más de un tipo de datos como texto e imágenes para generar resultados más sofisticados.

Un modelo multimedia que funcione tanto con texto como con imágenes podría permitir a los usuarios cargar una imagen y hacer preguntas sobre ella. Este tipo de modelos se están abriendo camino rápidamente en aplicaciones reales como el servicio de atención al cliente, donde pueden servir como versiones más rápidas y fáciles de usar de los manuales tradicionales.

Muchos modelos básicos pueden probarse gratuitamente (en cualquier hardware) en el Catálogo de APIs de NVIDIA.

Kosmos 2 es el innovador modelo multimodal de Microsoft diseñado para comprender y razonar sobre los elementos visuales de las imágenes.

Pensar Globalmente, Utilizar Modelos de IA Localmente

Las GPUs GeForce RTX y NVIDIA RTX pueden utilizar los modelos de la base de forma local.

Los resultados son rápidos y seguros. En lugar de depender de servicios basados en la nube, los usuarios pueden aprovechar aplicaciones como ChatRTX para procesar datos confidenciales en su PC local sin compartirlos con terceros ni necesitar conexión a Internet.

Los usuarios pueden elegir entre un catálogo en rápido crecimiento de modelos de base abierta para descargarlos y ejecutarlos en su propio hardware. Esto reduce los costos en comparación con el uso de aplicaciones y API basadas en la nube, y elimina los problemas de latencia y conectividad de red. La IA generativa está transformando los juegos, las videoconferencias y las experiencias interactivas de todo tipo. Entérate de las novedades y lo que está por venir suscribiéndote al boletín IA Descodificada.