Nota del Editor: Este post forma parte de la serie IA Descodificada, que permite desmitificar la IA haciendo la tecnología más accesible y presenta nuevo hardware, software, herramientas y aceleraciones para usuarios de PC y workstation NVIDIA RTX.
La demanda de herramientas que simplifiquen y optimicen el desarrollo de IA generativa se está disparando. Las aplicaciones basadas en la generación aumentada por recuperación (RAG) -una técnica para mejorar la precisión y fiabilidad de los modelos generativos de IA con datos obtenidos de fuentes externas específicas- y los modelos personalizados están permitiendo a los desarrolladores ajustar los modelos de IA a sus necesidades específicas
Aunque en el pasado este tipo de trabajo podía requerir una compleja configuración, las nuevas herramientas lo están haciendo más fácil que nunca.
NVIDIA AI Workbench simplifica los workflows de los desarrolladores de IA ayudando a los usuarios a crear sus propios proyectos RAG, personalizar modelos y mucho más. Forma parte del RTX AI Toolkit -un conjunto de herramientas y kits de desarrollo de software para personalizar, optimizar e implantar capacidades de IA- presentado en COMPUTEX a principios de este mes. AI Workbench elimina la complejidad de las tareas técnicas que pueden hacer desistir a los expertos y detener a los principiantes.
¿Qué es NVIDIA IA Workbench?
Disponible de forma gratuita, NVIDIA AI Workbench permite a los usuarios desarrollar, experimentar, probar y crear prototipos de aplicaciones de IA en los sistemas de GPU de su elección, desde portátiles y estaciones de trabajo hasta centros de datos y la nube. Ofrece un nuevo enfoque para crear, utilizar y compartir entornos de desarrollo basados en la GPU entre personas y sistemas.
Una sencilla instalación pone en marcha AI Workbench en un equipo local o remoto en cuestión de minutos. A continuación, los usuarios pueden iniciar un nuevo proyecto o replicar uno de los ejemplos de GitHub. Todo funciona a través de GitHub o GitLab, por lo que los usuarios pueden colaborar y distribuir el trabajo fácilmente. Más información sobre cómo empezar con AI Workbench.
Cómo IA Workbench Ayuda a Resolver los Retos de los Proyectos de IA
El desarrollo de workloads de IA puede requerir procesos manuales, a menudo complejos, desde el principio.
Configurar las GPUs, actualizar los drivers y gestionar las incompatibilidades de versiones puede resultar complicado. Reproducir proyectos en distintos sistemas puede requerir repetir los procesos manuales una y otra vez. Las incoherencias al replicar proyectos, como los problemas de fragmentación de datos y control de versiones, pueden dificultar la colaboración. Los distintos procesos de configuración, el traslado de credenciales y secretos, y los cambios en el entorno, los datos, los modelos y las ubicaciones de los archivos pueden limitar la portabilidad de los proyectos.
IA Workbench facilita a los científicos de datos y desarrolladores la gestión de su trabajo y la colaboración en plataformas heterogéneas. Integra y automatiza varios aspectos del proceso de desarrollo, ofreciendo:
- Facilidad de Configuración: IA Workbench agiliza el proceso de configuración de un entorno de desarrollo acelerado en la GPU, incluso para usuarios con conocimientos técnicos limitados.
- Colaboración Sin Problemas: IA Workbench se integra con herramientas de control de versiones y gestión de proyectos como GitHub y GitLab, lo que reduce la dificultad a la hora de colaborar.
- Consistencia al Cambiar del Entorno Local a la Nube: IA Workbench garantiza la coherencia en diferentes entornos, ya que admite el escalado ascendente o descendente desde workstations o PCs locales a centros de datos o la nube.
RAG para Documentos, Más Sencillo que Nunca
NVIDIA ofrece proyectos Workbench de desarrollo de muestra para ayudar a los usuarios a iniciarse en IA Workbench. El proyecto híbrido RAG Workbench Project es un ejemplo: Ejecuta una aplicación web RAG personalizada basada en texto con los documentos de un usuario en su workstation local, PC o sistema remoto.
Cada proyecto de Workbench se ejecuta en un » recipiente» – software que incluye todos los componentes necesarios para ejecutar la aplicación de IA. El ejemplo híbrido de RAG combina una interfaz de chat de Gradio en la máquina anfitriona con un servidor RAG en contenedor, el backend que atiende las solicitudes de los usuarios y dirige las consultas hacia y desde la base de datos vectorial y el modelo de lenguaje seleccionado.
Este proyecto de Workbench es compatible con una amplia variedad de LLM disponibles en la página GitHub de NVIDIA. Además, la naturaleza híbrida del proyecto permite a los usuarios seleccionar dónde ejecutar la inferencia.
Los desarrolladores pueden ejecutar el modelo de incrustación en la máquina del host y ejecutar la inferencia localmente en un servidor de inferencia de generación de texto Hugging Face, en recursos de nube de destino utilizando puntos finales de inferencia de NVIDIA como el catálogo de API de NVIDIA, o con microservicios de auto alojamiento como NVIDIA NIM o servicios de terceros.
El Proyecto Híbrido RAG Workbench también incluye:
- Métricas de Rendimiento: Los usuarios pueden evaluar el rendimiento de las consultas de usuario basadas y no basadas en RAG en cada modo de inferencia. Las métricas registradas incluyen el tiempo de recuperación, el tiempo hasta el primer token (TTFT) y la velocidad de token.
- Transparencia en la Recuperación: Un panel muestra los fragmentos exactos de texto -recuperados del contenido contextualmente más relevante de la base de datos vectorial- que se introducen en el LLM y mejoran la pertinencia de la respuesta a la consulta del usuario.
- Personalización de las Respuestas: Las respuestas pueden ajustarse con diversos parámetros, como el máximo de tokens a generar, la temperatura y la penalización por frecuencia.
Para empezar con este proyecto, basta con instalar IA Workbench en un sistema local. El proyecto híbrido RAG Workbench puede traerse desde GitHub a la cuenta del usuario y duplicarse en el sistema local.
Encontrará más recursos en la guía del usuario de la IA Descodificada. Además, los miembros de la comunidad proporcionan útiles tutoriales en video, como el de Joe Freeman a continuación.
Configurar, Optimizar, Implementar
Los desarrolladores buscan a menudo personalizar los modelos de IA para casos de uso específicos. El ajuste fino, una técnica que modifica el modelo entrenándolo con datos adicionales, puede ser útil para transferir estilos o cambiar el comportamiento del modelo. AI Workbench también ayuda con el ajuste fino.
El Llama-factory AI Workbench Project permite QLoRa, un método de ajuste fino que minimiza los requisitos de memoria, para una variedad de modelos, así como la cuantización de modelos a través de una sencilla interfaz gráfica de usuario. Los desarrolladores pueden utilizar conjuntos de datos públicos o propios para satisfacer las necesidades de sus aplicaciones.
Una vez finalizado el ajuste, el modelo puede cuantificarse para lograr un mayor rendimiento y un menor consumo de memoria y, a continuación, implementarse en aplicaciones nativas de Windows para la inferencia local o en NVIDIA NIM para la inferencia en la nube. Encontrará un tutorial completo de este proyecto en el repositorio de NVIDIA RTX IA Toolkit.
Realmente Híbrido – Ejecuta Cargas de Trabajo de IA en Cualquier Sitio
El proyecto Hybrid-RAG Workbench descrito anteriormente es híbrido en más de un sentido. Además de ofrecer la posibilidad de elegir el modo de inferencia, el proyecto puede ejecutarse localmente en workstations NVIDIA RTX y PCs GeForce RTX, o escalarse a servidores remotos en la nube y centros de datos.
La posibilidad de ejecutar proyectos en los sistemas que elija el usuario -sin la sobrecarga de tener que configurar la infraestructura- se extiende a todos los proyectos del Workbench. Encontrará más ejemplos e instrucciones de ajuste y personalización en la guía de inicio rápido de AI Workbench.
La IA generativa está transformando los juegos, las videoconferencias y las experiencias interactivas de todo tipo. Entérate de las novedades y lo que está por venir suscribiéndote al boletín IA Descodificada.