¿Cuál Es la Diferencia entre Desarrollar la IA en las Instalaciones y en el Cloud?

por Paresh Kharya

Elegir entre un sistema de GPU en las instalaciones y en el cloud es un poco como elegir entre comprar o alquilar una casa.

El alquiler requiere menos capital por adelantado. Se trata de pagar a medida que lo usas, y las tareas como reparar la lavadora-secadora o la pérdida en el son responsabilidad del propietario. Si sus hijos finalmente se mudan y es hora de pasar a una casa de otro tamaño, un inquilino solo está obligado a quedarse mientras lo indique el contrato.

Esos son los beneficios clave de alquilar las GPU en el cloud: una barrera financiera baja para la entrada, la compatibilidad de los proveedores de servicios de cloud y la capacidad de escalar rápidamente a un clúster de computación de diferente tamaño.

La compra, por otro lado, implica un costo fijo único: una vez que compras una propiedad, te quedas allí todo el tiempo que desees. A menos que viva con adolescentes, el dueño tiene plena soberanía sobre lo que ocurre dentro. No hay un contrato de arrendamiento, por lo que, siempre y cuando todo el mundo entre en la casa, está bien invitar a más de unos amigos y familiares para una estadía prolongada.

Este es el mismo razonamiento para invertir en las GPU en las instalaciones. Un sistema en las instalaciones se puede usar durante tanto tiempo y tantos proyectos como el hardware puede manejar, lo que facilita la iteración y prueba de diferentes métodos sin tener en cuenta los costos. Para datos confidenciales, como la información financiera o los registros médicos, podría ser esencial mantener todo detrás del firewall de una organización.

Según el caso de uso en cuestión y el tipo de datos involucrados, los desarrolladores pueden elegir desarrollar sus herramientas de IA en un sistema de desktop, en el data center en las instalaciones o en el cloud. Lo más probable es que pasen de un entorno a otro en diferentes puntos del proceso, desde la experimentación inicial hasta la implementación a gran escala.

Uso de las GPU en el Cloud

Las GPU basadas en el cloud se pueden utilizar para tareas tan diversas como entrenar motores de voz de IA multilingües, detectar síntomas tempranos de ceguera provocada por la diabetes y desarrollar tecnología de compresión de medios. Las startups, los académicos y los creadores pueden comenzar rápidamente, explorar nuevas ideas y experimentar sin un compromiso a largo plazo con una configuración o un tamaño específicos de las GPU.

Se puede acceder a las GPU de NVIDIA para data centers a través de las principales plataformas de cloud, incluidas Alibaba Cloud, Amazon Web Services, Google Cloud, IBM Cloud, Microsoft Azure y Oracle Cloud Infrastructure.

Los proveedores de servicios de cloud ayudan a los usuarios con la configuración y la resolución de problemas al ofrecer recursos útiles, como herramientas de desarrollo, redes neuronales previamente capacitadas y soporte técnico para desarrolladores. Cuando aparece una avalancha de datos de entrenamiento, se lanza un programa piloto o llegan una gran cantidad de nuevos usuarios, el cloud permite a las empresas escalar fácilmente su infraestructura para hacer frente a la demanda fluctuante de los recursos de computación.

Además de la rentabilidad, los desarrolladores que usan el cloud para la investigación, las aplicaciones en contenedores, los experimentos u otros proyectos que no dependen del tiempo pueden obtener descuentos de hasta el 90% al usar un exceso de capacidad. Este uso, conocido como «spot instances», subarrenda efectivamente el espacio en las GPU de cloud que no usan otros clientes.

Los usuarios que trabajan en el cloud a largo plazo también pueden actualizar a las GPU de data centers más recientes y potentes, a medida que los proveedores de cloud actualizan sus ofertas, y a menudo pueden aprovechar los descuentos para su uso continuo de la plataforma.

Uso de las GPU en las Instalaciones

Al desarrollar modelos de IA complejos con enormes conjuntos de datos, los costos operativos de un proyecto a largo plazo a veces pueden crecer. Esto puede hacer que los desarrolladores tengan cuidado con cada iteración o entrenamiento que realicen, lo que dejará menos libertad para experimentar. Un sistema de GPU en las instalaciones les brinda a los desarrolladores un tiempo de iteración y pruebas ilimitado por un costo fijo y una sola vez.

Los científicos de datos, los estudiantes y las empresas que usan GPU en las instalaciones no tienen que contar cuántas horas de uso del sistema están acumulando ni presupuestar cuántas ejecuciones pueden permitirse más de un tiempo en particular.

Si al principio se produce un error en una nueva metodología, no se requiere una inversión adicional para probar una variación diferente del código, lo que fomenta la creatividad del desarrollador. Cuanto más se utilice un sistema en las instalaciones, mayor será el retorno de la inversión del desarrollador.

Las máquinas de IA en las instalaciones ofrecen una amplia variedad de opciones, desde potentes GPU de desktops hasta workstations y sistemas empresariales. Según las necesidades de precio y rendimiento, los desarrolladores pueden comenzar con una sola GPU o workstation de NVIDIA y, con el tiempo, subir a un clúster de supercomputadoras de IA.

NVIDIA y VMware admiten data centers modernos y virtualizados con el software NVIDIA Virtual Compute Server (vCS) y el registro de contenedores NVIDIA NGC. Esto ayuda a las organizaciones a optimizar la implementación y administración de cargas de trabajo de IA en entornos virtuales utilizando servidores de GPU.

Las empresas de salud, las organizaciones de derechos humanos y la industria de servicios financieros tienen estándares estrictos de soberanía y privacidad de los datos. Los sistemas de deep learning en las instalaciones pueden facilitar la adopción de la IA al tiempo que cumplen con las regulaciones y minimizan los riesgos de ciberseguridad.

Uso de una Arquitectura de Cloud Híbrido

Para muchas empresas, no es suficiente elegir un solo método. Una arquitectura de cloud híbrido combina ambos métodos, ya que aprovecha la seguridad y la capacidad de administración de los sistemas en las instalaciones, junto con los recursos de cloud público de un proveedor de servicios.

El cloud híbrido se puede utilizar cuando la demanda es alta y los recursos en las instalaciones se maximizan, una táctica conocida como ráfaga de cloud. O una empresa podría confiar en su data center en las instalaciones para procesar sus datos más confidenciales, mientras ejecuta tareas dinámicas y computacionalmente intensivas en la instancia de cloud híbrido.

Muchos data centers empresariales ya están virtualizados y buscan implementar una instancia de cloud híbrido que sea coherente con los recursos de computación existentes de la empresa. NVIDIA se asocia con VMware Cloud en AWS para ofrecer servicios de GPU acelerados para las aplicaciones empresariales modernas, incluidos los workflows de IA, machine learning y análisis de datos.

El servicio permitirá a los usuarios de instancias de cloud híbrido organizar y migrar en vivo sin problemas cargas de trabajo de IA entre los servidores virtuales acelerados por GPU en data centers y VMware Cloud.

Lo Mejor de Ambos Mundos: La Hoja de Ruta de IA de un Desarrollador

Tomar una decisión entre el cloud y las GPU en las instalaciones no es una decisión única que toma una empresa o un equipo de investigación antes de comenzar un proyecto de IA. Es una pregunta que los desarrolladores pueden hacerse a sí mismos en varias etapas durante el ciclo de vida de sus proyectos.

Una startup podría realizar algunos prototipos tempranos en el cloud y, luego, cambiar a un sistema de desktop o workstation con GPU para desarrollar y entrenar sus modelos de deep learning. Podría volver al cloud cuando se escala para la producción, ya que fluctúa la cantidad de clústeres utilizados según la demanda del cliente. A medida que la compañía construye su infraestructura global, puede invertir en un data center con GPU en las instalaciones.

Algunas organizaciones, como las que desarrollan modelos de IA para manejar información altamente calificada, pueden continuar utilizando las máquinas en las instalaciones de principio a fin. Otras pueden construir una empresa que sea la primera en el cloud y que nunca construya un data center en las instalaciones.

Un principio clave para las organizaciones es realizar el entrenamiento donde se encuentran los datos. Si los datos de una empresa se ejecutan en un servidor de cloud, puede ser más rentable desarrollar modelos de IA en el cloud para evitar el cambio de los datos a un sistema en las instalaciones para el entrenamiento. Si los conjuntos de datos de entrenamiento se encuentran en un servidor en las instalaciones, invertir en un clúster de GPU en las instalaciones podría ser el camino indicado.

Más allá de la ruta que tome un equipo para acelerar su desarrollo de IA con las GPU, los recursos de los desarrolladores de NVIDIA están disponibles para apoyar a los ingenieros con SDK, contenedores y proyectos de código abierto. Además, el Deep Learning Institute de NVIDIA ofrece capacitación práctica para desarrolladores, científicos de datos, investigadores y estudiantes para que aprendan a las usar herramientas de computación acelerada.

Visita la página de IA y deep learning de NVIDIA para obtener más información.

Imagen principal de MyGuysMoving.com, con licencia de Flickr, CC BY-SA 2.0.