Cuando un rayo extraño provocó enormes incendios forestales en el norte de California el año pasado, también impulsó esfuerzos de los científicos de datos para mejorar las predicciones de incendios.
Un esfuerzo provino de SpaceML, una iniciativa del Frontier Development Lab, que es un laboratorio de investigación de IA de la NASA en asociación con el Instituto SETI. Dedicada a la investigación de código abierto, la comunidad de desarrolladores de SpaceML está creando modelos de reconocimiento de imágenes para ayudar a avanzar en el estudio de los riesgos de desastres naturales, incluidos los incendios forestales.
SpaceML utiliza la computación acelerada en petabytes de datos para el estudio de las ciencias terrestres y espaciales, con el objetivo de promover proyectos para los investigadores de la NASA. Reúne a científicos de datos y científicos ciudadanos voluntarios en proyectos que aprovechan los datos del Sistema de Información y Datos del Sistema de Observación de la Tierra de la NASA. La información satelital provino de imágenes grabadas de la Tierra (510 millones de kilómetros cuadrados) diariamente durante 20 años, para generar 40 petabytes de datos sin etiquetar.
“Tenemos la suerte de vivir en una época en la que se dispone de una cantidad de datos sin precedentes. Es como una mina de oro, y todo lo que necesitamos construir son las palas para aprovechar todo su potencial”, dijo Anirudh Koul, líder de machine learning y mentor en SpaceML.
Con Ganas de Hacer la Diferencia
Koul, que trabaja como científico de datos en Pinterest, dijo que los incendios forestales de California dañaron áreas cercanas a su casa el otoño pasado. El residente de San José y ávido excursionista dijo que quemaron algunos de sus lugares favoritos para caminatas en el cercano Monte Hamilton. Su primer impulso fue unirse como bombero voluntario, pero en cambio se dio cuenta de que su mayor contribución podría ser prestando sus habilidades en ciencia de datos.
A Koul le gusta el trabajo que ayuda a los demás. Antes de trabajar como voluntario en SpaceML, dirigió el área de investigación e IA en la startup Aira, que usa lentes de realidad aumentada para dictar a los ciegos lo que tienen frente a ellos con identificación de imágenes emparejada con el procesamiento de idiomas naturales.
Aira, miembro del programa acelerador NVIDIA Inception para startups en el sector de IA y ciencia de datos, fue adquirida el año pasado.
Investigación Interdisciplinaria Inclusiva
El trabajo en SpaceML combina voluntarios sin experiencia en IA con profesionales de la industria tecnológica como mentores en proyectos. Su objetivo es desarrollar clasificadores de imágenes a partir de imágenes satelitales de la Tierra para detectar signos de desastres naturales.
Los grupos asumen proyectos de tres semanas que pueden examinar todo, desde incendios forestales y huracanes hasta inundaciones y derrames de petróleo. Se reúnen mensualmente con científicos de la NASA con experiencia en las ciencias para realizar evaluaciones.
Los colaboradores de SpaceML van desde estudiantes de secundaria hasta estudiantes universitarios y más. El trabajo ha incluido participantes de Nigeria, México, Corea y Alemania y Singapur.
Los miembros del equipo de SpaceML para este proyecto incluyen a Rudy Venguswamy, Tarun Narayanan, Ajay Krishnan y Jeanessa Patterson. Los mentores son Koul, Meher Kasam y Siddha Ganju, un científico de datos de NVIDIA.
Desarrollar un Conjunto de Herramientas para SpaceML
SpaceML proporciona una colección de herramientas de machine learning. Los grupos la utilizan para trabajar en tareas como el aprendizaje autosupervisado mediante SimCLR, la búsqueda de imágenes de múltiples resoluciones y el etiquetado de datos, entre otras tareas. La facilidad de uso es clave para el conjunto de herramientas.
Entre su cartera de herramientas de creación de modelos, los colaboradores de SpaceML confían en NVIDIA DALI para el preprocesamiento rápido de datos. DALI ayuda con datos no estructurados que no son aptos para alimentar directamente a redes neuronales convolucionales para desarrollar clasificadores.
“Usando DALI pudimos hacer esto relativamente rápido”, dijo Venguswamy.
Los hallazgos de SpaceML se publicaron en el Comité de Investigación Espacial (COSPAR) para que los investigadores puedan replicar su fórmula.
Clasificadores para Big Data
El grupo desarrolló Curator para entrenar clasificadores con intervención humana en el proceso, por lo que requiere menos ejemplos etiquetados debido a su aprendizaje autosupervisado. La interfaz del curador es como Tinder, explica Koul, de modo que los principiantes pueden deslizar la pantalla hacia la izquierda para los ejemplos rechazados de imágenes para sus clasificadores o deslizar la pantalla hacia la derecha para aquellos que se utilizarán en el proceso de entrenamiento.
El proceso les permite recopilar rápidamente un pequeño conjunto de imágenes etiquetadas y usarlo contra el conjunto de imágenes de satélite de GIBS Worldview para encontrar todas las imágenes del mundo que coincidan, a fin de crear un enorme conjunto de datos para futuras investigaciones científicas.
“La idea de todo este proceso era que podemos entrenar un modelo de aprendizaje autosupervisado con toda la Tierra, que es una gran cantidad de datos”, dijo Venguswamy.
Las CNN se ejecutan en instancias de las GPU de NVIDIA en el cloud.
Autor de la foto: Emil Jarfelt, Unsplash