Decenas de miles de empresas de todo el mundo confían en Apache Spark para procesar conjuntos de datos masivos que respalden operaciones críticas, así como para predecir tendencias, comportamiento de los clientes, rendimiento empresarial y mucho más. Cuanto más rápido una empresa pueda procesar y comprender sus datos, más podrá ganar y ahorrar.
Es por eso que las empresas con conjuntos de datos masivos, incluidos los minoristas y bancos más grandes del mundo, han adoptado NVIDIA RAPIDS Accelerator para Apache Spark. El software de código abierto se ejecuta sobre la plataforma de computación acelerada de NVIDIA para acelerar significativamente el procesamiento de pipelines de análisis y ciencia de datos de extremo a extremo, sin ningún cambio en el código.
Para facilitar aún más a las empresas la obtención de valor de Spark acelerado por NVIDIA, NVIDIA ha presentado hoy Project Aether, una colección de herramientas y procesos que califican, prueban, configuran y optimizan automáticamente las cargas de trabajo de Spark para la aceleración de GPU a escala.
El Project Aether Completa el Trabajo de Un Año en Menos de Una Semana
Los clientes que utilizan Spark en producción a menudo gestionan decenas de miles de trabajos complejos, o más. La migración de la computación de solo CPU a la computación con tecnología de GPU ofrece numerosas y significativas ventajas, pero puede ser un proceso manual y lento.
Project Aether automatiza la miríada de pasos que las empresas han realizado anteriormente de forma manual, incluido el análisis de todos sus trabajos de Spark para identificar a los mejores candidatos para la aceleración de GPU, así como la preparación y la realización de pruebas de cada trabajo. Utiliza la IA para afinar la configuración de cada trabajo para obtener el máximo rendimiento.
Para comprender el impacto de Project Aether, considere una empresa que tiene 100 trabajos de Spark para completar. Con Project Aether, cada uno de estos trabajos se puede configurar y optimizar para la aceleración de GPU NVIDIA en tan solo cuatro días. El mismo proceso, realizado manualmente por un solo ingeniero de datos, podría tardar hasta un año entero.
CBA Impulsa la Transformación de la IA con Apache Spark Acelerado por NVIDIA
La ejecución de Apache Spark en la computación acelerada de NVIDIA ayuda a las empresas de todo el mundo a completar trabajos más rápido y con menos hardware en comparación con el uso de solo CPU, lo que ahorra tiempo, espacio, energía y refrigeración, así como costos operativos y de capital en las instalaciones en la nube.
La institución financiera más grande de Australia, el Commonwealth Bank of Australia, es responsable de procesar el 60% de las transacciones financieras del continente. CBA experimentaba desafíos debido a la latencia y los costos asociados con la ejecución de sus cargas de trabajo de Spark. Mediante el uso de clústeres de computación de solo CPU, el banco estima que enfrentó casi nueve años de tiempo de procesamiento para su acumulación de entrenamiento, además de manejar las demandas diarias de datos que ya eran agotadoras.
«Con 40 millones de transacciones de inferencia al día, era fundamental que pudiéramos procesarlas de manera oportuna y confiable», dijo Andrew McMullan, director de datos y análisis de CBA.
La ejecución de RAPIDS Accelerator para Apache Spark en una infraestructura impulsada por GPU proporcionó a CBA un aumento de rendimiento de 640 veces, lo que permitió al banco procesar un entrenamiento de 6.300 millones de transacciones en solo cinco días. Además, en su volumen diario de 40 millones de transacciones, CBA ahora puede realizar inferencias en 46 minutos y reducir los costos en más del 80% en comparación con el uso de una solución basada en CPU.
McMullan afirma que otro valor de Apache Spark acelerado por NVIDIA es cómo ofrece a su equipo la eficiencia del tiempo de cómputo necesaria para crear modelos de forma rentable que puedan ayudar a CBA a ofrecer un mejor servicio al cliente, anticipar cuándo los clientes pueden necesitar ayuda con los préstamos hipotecarios y detectar más rápidamente las transacciones fraudulentas.
CBA también planea utilizar Apache Spark acelerado por NVIDIA para identificar mejor dónde los clientes suelen terminar sus viajes digitales, lo que permite al banco remediar cuando sea necesario para reducir la tasa de aplicaciones abandonadas.
Ecosistema Global
RAPIDS Accelerator para Apache Spark está disponible a través de una red global de socios. Se ejecuta en Amazon Web Services, Cloudera, Databricks, Dataiku, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure.
Dell Technologies también anunció hoy la integración de RAPIDS Accelerator para Apache Spark con Dell Data Lakehouse.
Para obtener asistencia a través de NVIDIA Project Aether con una migración a gran escala de cargas de trabajo de Apache Spark, solicite acceso.
Para obtener más información, regístrese en NVIDIA GTC y asista a estas sesiones clave con Walmart, Capital One, CBA y otros líderes de la industria:
- Cómo Walmart Usa RAPIDS para Mejorar la Eficiencia y lo que Hemos Aprendido en el Camino
- Acelere las Aplicaciones Distribuidas de Apache Spark en Kubernetes con RAPIDS
- Cree Pipelines de Ciencia de Datos Ultrarrápidos en la Industria con Computación Acelerada
- Avance en la Detección de Fraudes en Transacciones en Servicios Financieros con NVIDIA RAPIDS en AWS
- Aceleración de la Inteligencia de Datos con GPU y RAPIDS en Databricks
- Amplíe Su Procesamiento de Datos de Apache Spark con GPU Blackwell de Última Generación para Ahorrar Costos y Rendimiento
Ver notar con respecto a la información del producto de software.