La visión de computación se ha vuelto tan buena que los días en que los gerentes generales gritaban a los árbitros en los juegos de béisbol en las disputas sobre los lanzamientos pueden convertirse en cosa del pasado.
Esto se debe a que los avances en la clasificación de imágenes junto con el procesamiento paralelo hacen posible que las computadoras vean una pelota de béisbol zumbando a 95 millas por hora. Si se combina con la detección de imágenes para ayudar a geolocalizar las bolas, lograrás una potente herramienta de árbitro con la que es difícil discutir.
Pero la visión de computación no se detiene en el béisbol.
¿Qué Es la Visión de Computación?
La visión de computación es un término amplio para el trabajo realizado con redes neuronales profundas, cuyo objetivo es desarrollar capacidades de visión similares a las humanas para aplicaciones, que generalmente se ejecutan en las GPUs NVIDIA. Puede incluir entrenamiento específico de redes neuronales para realizar la segmentación, la clasificación y la detección usando imágenes y videos para datos.
Major League Baseball está probando las decisiones asistidas por IA en el plato usando la visión de computación. Tomar decisiones sobre bolas y strikes cuando los lanzamientos tardar solo 0.4 segundos en llegar al plato no es fácil para los ojos humanos. Podría resolverse mejor usando material de cámara que se ejecuta en redes de imágenes y las GPUs de NVIDIA que pueden procesar decisiones en una fracción de segundo a una velocidad de más de 60 cuadros por segundo.
Hawk-Eye, con sede en Londres, está haciendo que esto sea una realidad en los deportes. El software SMART y el seguimiento de balones con la tecnología de las GPUs de NVIDIA de Hawk-Eye se implementa en más de 20 deportes, incluidos béisbol, baloncesto, tenis, fútbol, cricket, hockey y NASCAR.
Sin embargo, la visión de computación puede hacer mucho más que simplemente tomar decisiones arbitrales.
¿Qué Es la Visión de Computación más Allá de los Deportes?
La visión de computación puede manejar muchas más tareas. La visión de computación se desarrolló con redes neuronales convolucionales y puede realizar la segmentación, clasificación y detección para una gran variedad de aplicaciones.
La visión de computación tiene infinitas aplicaciones. Con los cambios de la industria de la visión de computación que abarcan los deportes, la fabricación de automóviles, la agricultura, el comercio minorista, la banca, la construcción, los seguros y más, hay mucho en juego.
3 Cosas que Debes Saber sobre la Visión de Computación
- Segmentación: La segmentación de imágenes consiste en clasificar los píxeles para que pertenezcan a una categoría determinada, como un automóvil, una carretera o un peatón. Se usa ampliamente en aplicaciones de vehículos autónomos, incluida la pila de software NVIDIA DRIVE, para mostrar carreteras, automóviles y personas. Piensa en esto como una especie de técnica de visualización que hace que lo que hacen las computadoras sea más fácil de entender para los humanos.
- Clasificación: La clasificación de imágenes se utiliza para determinar qué hay en una imagen. Las redes neuronales se pueden entrenar para identificar perros o gatos, por ejemplo, o muchas otras cosas con un alto grado de precisión si se cuenta con datos suficientes.
- Detección: La detección de imágenes permite a las computadoras localizar dónde existen los objetos. Coloca cuadros delimitadores rectangulares, como en la mitad inferior de la imagen de abajo, que contienen completamente el objeto. Un detector puede estar entrenado para ver dónde están los automóviles o las personas dentro de una imagen, por ejemplo, como en los cuadros numerados que aparecen a continuación.
Lo que Necesitas Saber: Segmentación, Clasificación y Detección
Segmentación | Clasificación | Detección |
Ideal para delinear objetos | ¿Es un gato o un perro? | ¿Dónde existe en el espacio? |
Se utiliza en vehículos de conducción autónoma | Clasifica con precisión | Reconoce cosas por seguridad |
El Instituto de Deep Learning de NVIDIA ofrece cursos como Introducción a la Segmentación de Imágenes y Aspectos Básicos de Deep Learning para la Visión de Computación.