Nota del editor: Este post forma parte de la serie IA Descodificada, que permite desmitificar la IA haciendo que la tecnología sea más accesible, y muestra nuevo hardware, software, herramientas y aceleraciones para usuarios de PC y estaciones de trabajo RTX.
En todos los sectores, la IA está impulsando la innovación y la eficiencia, pero para aprovechar todo su potencial, la tecnología debe entrenarse con enormes cantidades de datos de alta calidad.
Los científicos de datos desempeñan un papel clave en la preparación de estos datos, especialmente en campos específicos en los que los datos especializados, a menudo patentados, son esenciales para mejorar las capacidades de IA.
Para ayudar a los científicos de datos con las crecientes demandas de carga de trabajo, NVIDIA ha anunciado que RAPIDS cuDF, una biblioteca que permite a los usuarios trabajar más fácilmente con los datos, acelera la biblioteca de software pandas con cero cambios de código. Pandas es una biblioteca de análisis y manipulación de datos flexible, potente y popular para el lenguaje de programación Python. Con cuDF, los científicos de datos ahora pueden utilizar su base de código preferida sin comprometer la velocidad de procesamiento de datos.
El hardware y las tecnologías NVIDIA RTX de IA también pueden acelerar el procesamiento de datos. Incluyen potentes GPUs que proporcionan el rendimiento computacional necesario para acelerar la IA de forma rápida y eficiente en todos los niveles, desde los flujos de trabajo de ciencia de datos hasta el entrenamiento y la personalización de modelos en PCs y estaciones de trabajo.
El cuello de botella de la ciencia de datos
El formato de datos más común es el tabular, que se organiza en hileras y columnas. Los conjuntos de datos más pequeños pueden gestionarse con herramientas de hoja de cálculo como Excel; sin embargo, los conjuntos de datos y las líneas de modelado con decenas de millones de filas suelen depender de bibliotecas de fotogramas de datos en lenguajes de programación como Python.
Python es una opción popular para el análisis de datos, principalmente debido a la bibliotecas pandas, que cuenta con una interfaz de programación de aplicaciones (API) fácil de utilizar. Sin embargo, a medida que aumenta el tamaño de los conjuntos de datos, pandas tiene problemas con la velocidad de procesamiento y la eficiencia en los sistemas basados únicamente en CPU. La biblioteca también tiene problemas con los conjuntos de datos con mucho texto, que es un tipo de datos importante para los modelos lingüísticos de gran tamaño.
Cuando las necesidades de datos superan las capacidades de pandas, los científicos de datos se enfrentan a un dilema: soportar unos plazos de procesamiento reducidos o dar el complejo y complicado paso de cambiar a herramientas más eficientes, pero menos fáciles de usar.
Aceleración de los procesos de preprocesamiento con RAPIDS cuDF
Con RAPIDS cuDF, los científicos de datos pueden utilizar su base de código preferida sin comprometer la velocidad de procesamiento.
RAPIDS es un conjunto de librerías Python de código abierto aceleradas en la GPU diseñadas para mejorar los procesos de análisis y ciencia de datos. cuDF es una biblioteca de DataFrame para la GPU que proporciona una API similar a la de pandas para cargar, filtrar y manipular datos.
Con el «modo acelerador de pandas» de cuDF, los científicos de datos pueden ejecutar su código pandas existente en las GPUs para aprovechar el potente procesamiento paralelo, con la seguridad de que el código cambiará a las CPUs cuando sea necesario. Esta interoperabilidad proporciona un rendimiento avanzado y fiable.
La última versión de cuDF soporta grandes conjuntos de datos y miles de millones de filas de datos tabulares de texto. Esto permite a los científicos de datos utilizar código pandas para preprocesar datos para casos de uso de IA generativa.
Aceleración de la ciencia de datos en estaciones de trabajo y PCs de IA con NVIDIA RTX
Según un estudio reciente, el 57% de los científicos de datos utilizan recursos locales como PCs, desktops o estaciones de trabajo para la ciencia de datos.
Los científicos de datos pueden conseguir importantes aumentos de velocidad a partir de la GPU NVIDIA GeForce RTX 4090. A medida que los conjuntos de datos crecen y el procesamiento se vuelve más intensivo en memoria, pueden utilizar cuDF para obtener hasta 100 veces más rendimiento con las GPUs NVIDIA RTX 6000 Ada Generation en estaciones de trabajo, en comparación con las soluciones tradicionales basadas en CPU.
Los científicos de datos pueden empezar a trabajar fácilmente con RAPIDS cuDF en NVIDIA AI Workbench. Este gestor gratuito de entornos de desarrollo basado en contenedores permite a los científicos de datos y desarrolladores crear, colaborar y migrar cargas de trabajo de IA y ciencia de datos a través de sistemas GPU. Los usuarios pueden comenzar con varios proyectos de ejemplo disponibles en el repositorio GitHub de NVIDIA, como el proyecto cuDF proyecto .
cuDF también está disponible por defecto en HP AI Studio, una plataforma centralizada de ciencia de datos diseñada para ayudar a los desarrolladores de IA a replicar sin problemas su entorno de desarrollo desde las estaciones de trabajo a la nube. Esto les permite configurar, desarrollar y colaborar en proyectos sin necesidad de gestionar varios entornos.
Las ventajas de cuDF en las PCs y estaciones de trabajo de IA potenciadas por RTX van más allá de la aceleración del rendimiento bruto. También:
- Ahorra tiempo y dinero con el desarrollo local de costo fijo en potentes GPUs que se replica sin problemas a servidores locales o instancias en la nube.
- Permite un procesamiento de datos más rápido para iteraciones más rápidas, lo que permite a los científicos de datos experimentar, refinar y obtener información de conjuntos de datos a velocidades interactivas.
- Ofrece un procesamiento de datos más impactante para obtener mejores resultados de los modelos más adelante.
Más información sobre RAPIDS cuDF.
Una nueva era de la ciencia de datos
A medida que la IA y la ciencia de datos sigan evolucionando, la capacidad de procesar y analizar rápidamente conjuntos de datos masivos se convertirá en un diferenciador clave para permitir avances en todos los sectores. Ya sea para desarrollar sofisticados modelos de aprendizaje automático, realizar complejos análisis estadísticos o explorar la IA generativa, RAPIDS cuDF proporciona la base para el procesamiento de datos de próxima generación.
NVIDIA está ampliando esa base añadiendo soporte para las herramientas de procesamiento de datos más populares, lo que incluye Polars, una de las librerías Python de más rápido crecimiento, que acelera significativamente el procesamiento de datos en comparación con otras herramientas basadas exclusivamente en CPU.
Polars ha anunciado este mes la beta abierta del motor de GPU de Polars, impulsado por RAPIDS cuDF. Ahora, los usuarios de Polars pueden multiplicar por 13 el rendimiento de la ya de por sí rápida biblioteca de fotogramas de datos.
Infinitas posibilidades para los ingenieros del mañana con RTX AI
Las GPUs NVIDIA, ya funcionen en centros de datos universitarios, laptops GeForce RTX o estaciones de trabajo NVIDIA RTX, están acelerando los estudios. Los estudiantes de ciencias de datos y otros campos están mejorando su experiencia de aprendizaje y adquiriendo experiencia práctica con un hardware muy utilizado en aplicaciones del mundo real.
Más información sobre cómo las PCs y estaciones de trabajo NVIDIA RTX ayudan a los estudiantes a mejorar sus estudios con herramientas basadas en IA.
La IA generativa está transformando los juegos, las videoconferencias y las experiencias interactivas de todo tipo. Entérate de las novedades y lo que está por venir suscribiéndote al boletín IA Descodificada.