El empujón final para lograr el triplete llegó a último momento.
Cinco minutos antes de la fecha límite, el equipo presentó el trabajo en su tercera y más dura competencia de ciencia de datos del año en sistemas de recomendación. RecSys es una rama relativamente nueva de la computación que ha generado una de las aplicaciones más utilizadas en machine learning, una que ayuda a millones de personas a encontrar lo que quieren ver, comprar y jugar.
La combinación del equipo de seis modelos de IA logró incluir al límite del concurso de 20 gigabytes todos los conocimientos que seleccionó del estudio de 750 millones de puntos de datos. Una regla inusual en la competencia decía que los modelos tenían que ejecutarse en menos de 24 horas en un solo núcleo en una CPU en el cloud.
Presionaron el botón de envío y esperaron.
Veintitrés horas y 40 minutos después llegó un correo electrónico que indicaba que habían logrado el primer puesto en la clasificación.
Justo Cuando Sonó la Chicharra
El 28 de junio se hizo el anuncio oficial: el equipo de siete miembros de NVIDIA ganó por segunda vez el ACM RecSys Challenge.
“El correo electrónico llegó justo cuando estaba por terminar el tiempo. Si llegaba 20 minutos más tarde, habríamos aplazado el tiempo de salida”, dijo Chris Deotte, uno de los varios miembros del equipo que también es un gran maestro en las competiciones de Kaggle, las Olimpiadas en línea de ciencia de datos.
Un framework que ayuda a los usuarios a desarrollar rápidamente sus propios sistemas de recomendación NVIDIA Merlin, un framework que ayuda a los usuarios a desarrollar rápidamente sus propios sistemas de recomendación.
Las GPU podrían haber completado el trabajo de inferencia en una fracción del tiempo. Adaptar el trabajo a un núcleo de CPU “fue como volver al pasado lejano”, dijo Gilberto “Giba” Titericz, un gran maestro de Kaggle con sede en Brasil en el equipo.
De hecho, una vez que la competencia había terminado, el equipo demostró que el trabajo de inferencia que tomó casi 24 horas en un núcleo de CPU podía ejecutarse en una sola GPU NVIDIA A100 Tensor Core en solo cinco minutos y medio.
Clasificación de 40 Millones de Artículos al Día
Para esa competencia, Twitter les dio a los participantes millones de puntos de datos al día durante 28 días y les pidió que predijeran qué tweets les gustaría o retuitearían a los usuarios. Fue un desafío de fuerza industrial de la conferencia técnica líder en RecSys, un evento que atrae a los mejores ingenieros de Facebook, Google, Spotify y otras importantes empresas.
La disciplina es tan dura como útil. Los sistemas de recomendación alimentan nuestra economía digital, ya que ofrecen sugerencias de forma más rápida e inteligente que una búsqueda tradicional.
Los desafíos de la industria ayudan a avanzar en el campo para todas las personas, ya sea que estén buscando el regalo perfecto para un cónyuge o tratando de encontrar a un viejo amigo en línea.
Tres Victorias en Cinco Meses
A principios de este año, todo el equipo de NVIDIA se destacó entre 40 participantes en el Booking.com Challenge. Utilizaron millones de puntos de datos anónimos para predecir correctamente la ciudad final que una persona de vacaciones en Europa elegiría visitar.
En junio, otro de los principales concursos de recsys, el SIGIR eCommerce Data Challenge, estableció un obstáculo aún mayor.
La reunión anual del Grupo de Interés Especial sobre Recuperación de Información, SIGIR, atrae a expertos de compañías que van desde Alibaba hasta Walmart Labs. Su desafío de 2021 proporcionó 37 millones de puntos de datos de sesiones de compras en línea y pidió a los participantes que predijeran qué productos comprarían los usuarios.
La superposición con el concurso de ACM obligó al equipo de NVIDIA a dividirse en dos grupos que coordinaron sus esfuerzos entre los concursos. Para mayor presión, algunos miembros del equipo estaban escribiendo un documento para la conferencia ACM RecSys.
El Arte de la Pausa Rápida
Dos factores le permitieron a un equipo de cinco personas de NVIDIA, con miembros repartidos por Brasil, Canadá, Francia y los EE. UU., lograr mejor rendimiento general, para alcanzar el primer o segundo lugar en cada clasificación. Hicieron una gran apuesta por los modelos de Transformer desarrollados para el procesamiento de idiomas naturales y cada vez más adoptados para recsys, y entendieron el arte de la entrega.
“Mientras un miembro se va a dormir, otro retoma el trabajo en una zona horaria diferente”, dijo Even Oldridge, quien lidera el grupo Merlin.
“Cuando todo encaja, es muy efectivo, y estoy asombrado de lo que hemos logrado en el último año construyendo nuestro conocimiento interno y la posición que logramos en la comunidad de recsys, hasta el punto en que pudimos ganar tres competiciones importantes en cinco meses”, dijo.
Respetar la Privacidad del Usuario
El concurso requería que los modelos hicieran predicciones sin antecedentes sobre los usuarios más allá de su sesión de navegación actual.
“Esa es una tarea importante porque a veces los usuarios quieren navegar de forma anónima, y algunas leyes de privacidad limitan el acceso a la información histórica”, dijo Gabriel Moreira, investigador sénior de Merlin en São Paulo, que dirigió el equipo SIGIR de NVIDIA.
La competencia marcó la primera vez que el equipo utilizó solo modelos de Transformer en su solución para el desafío. El equipo de Moreira tiene como objetivo hacer que las enormes redes neuronales estén más fácilmente disponibles para todos los clientes de Merlin.
De un Triplete a un Póker
El 30 de junio, conseguimos una cuarta victoria consecutiva en RecSys, lo que se conoce como póker. MLPerf, un grupo de evaluación comparativa de la industria, anunció que NVIDIA y sus socios establecieron récords en todos sus últimas evaluaciones de entrenamiento, incluido una en sistemas de recomendación.
El equipo detrás de ese esfuerzo describió su trabajo entrenando un sistema de recomendación en menos de un minuto en 14 sistemas NVIDIA DGX, una aceleración de 3.3 veces en comparación con su presentación de hace un año.
Compartir las Lecciones Aprendidas
Las competiciones alimentan ideas para nuevas técnicas que encuentran su camino en frameworks de recsys como Merlin y herramientas relacionadas, documentos y clases en línea celebradas por el Deep Learning Institute de NVIDIA. El objetivo final: Ayudar a todos a tener éxito.
En entrevistas, los expertos en recsys de NVIDIA compartieron libremente sus conocimientos: parte arte, parte ciencia.
Un Consejo Profesional en RecSys
Una práctica recomendada es utilizar una diversidad de modelos que funcionan juntos como un conjunto.
En el ACM RecSys Challenge, el equipo utilizó modelos de árboles y de redes neuronales. Las salidas de una etapa se convirtieron en entradas para la siguiente en un proceso denominado apilamiento.
“Un solo modelo puede cometer un error debido a un error de datos o un problema de convergencia, pero si tomas un conjunto de varios modelos, es muy poderoso”, dijo Bo Liu, el miembro más nuevo del equipo de grandes maestros de Kaggle de NVIDIA.
Conoce a los Expertos de RecSys en Línea
El 29 de julio, puedes conocer a expertos de RecSys de Facebook, NVIDIA y TensorFlow para aprender más sobre cómo crear grandes sistemas de recomendación.