Nota del editor: Esta es la publicación más reciente de nuestra serie NVIDIA DRIVE Labs. Con esta serie, estamos analizando los diferentes desafíos de los vehículos autónomos y cómo el equipo de software NVIDIA DRIVE AV los está resolviendo. Puedes leer nuestras publicaciones anteriores aquí.
Las intersecciones son características comunes de las carreteras, ya sean paradas de cuatro vías en un vecindario o intercambios llenos de semáforos en vías concurridas de varios carriles.
Dada la frecuencia, la variedad y el riesgo asociados con las intersecciones (más del 50 por ciento de los accidentes graves en los EE. UU. ocurren en las intersecciones o cerca de ellas), es fundamental que un vehículo autónomo pueda transitarlas de forma precisa.
El manejo de intersecciones de manera autónoma presenta un conjunto complejo de desafíos para los automóviles de conducción autónoma. Esto incluye la capacidad de detenerse con precisión en una línea de espera o cruce de peatones de la intersección, procesar e interpretar correctamente las reglas de tránsito en varios escenarios, y determinar y ejecutar la ruta correcta para una variedad de maniobras, como proceder directamente a través de la intersección y los giros de intersección sin protección.
Anteriormente en la serie DRIVE Labs, demostramos cómo detectamos intersecciones, semáforos y señales de tránsito con WaitNet DNN. Además, cómo clasificamos el estado del semáforo y el tipo de señal de tráfico con las DNN de LightNet y SignNet. En este episodio, vamos más allá para mostrar cómo NVIDIA usa la IA para percibir las diversas estructuras de intersección que un vehículo autónomo podría encontrar en un viaje diario.
Generación Manual de Mapas
Los métodos anteriores se han basado en mapas semánticos 3D de alta definición de una intersección y su área circundante para comprender la estructura de la intersección y crear caminos para navegar de manera segura.
El etiquetado humano tienen una gran participación en la creación de este mapa, ya que codifica de forma específica todas las características de la estructura de intersección potencialmente relevantes, como dónde están ubicadas las líneas de entrada y salida de intersección y los divisores, dónde están los semáforos o señales, y cuántos carriles hay en cada dirección. Cuanto más complejo sea el escenario de intersección, mayor será la necesidad de modificar específicamente el mapa.
Una limitación práctica importante de este enfoque es la falta de escalabilidad. Cada intersección en el mundo debería etiquetarse de cero antes de que un vehículo autónomo pueda navegar por ellas, lo que crea desafíos de recolección de datos, etiquetado y costos altamente poco prácticos.
Otro desafío radica en las condiciones temporales, como las zonas de construcción. Debido a la naturaleza temporal de estos escenarios, agregarlos y quitarlos de un mapa puede ser muy complejo.
Por el contrario, nuestro enfoque es análogo a cómo conducen los humanos. Los humanos usan la percepción en vivo en lugar de los mapas para comprender la estructura de la intersección y navegar por las intersecciones.
Un Enfoque Estructurado para las Intersecciones
Nuestro algoritmo extiende la capacidad de nuestra DNN WaitNet para predecir la estructura de intersecciones como una colección de puntos que llamamos «articulaciones», las cuales son análogas a las articulaciones en un cuerpo humano. Así como el movimiento de las extremidades humanas se logra a través de las conexiones entre nuestras articulaciones, en nuestro enfoque, el movimiento de un vehículo autónomo a través de una intersección se puede lograr conectando las articulaciones de la estructura de la intersección en un camino para que el vehículo siga.
Figura 1. Predicción de la estructura de una intersección. Rojo = línea de espera de entrada de la intersección para el automóvil propio; Amarillo = línea de espera de entrada de la intersección para otros automóviles; Verde = línea de salida de la intersección. En esta figura, las líneas verdes indican todas las formas posibles en que el automóvil propio podría salir de la intersección si llega desde el carril más a la izquierda; específicamente, podría continuar conduciendo en línea recta, girar a la izquierda o girar en U.
En lugar de segmentar los contornos de una imagen, nuestro DNN puede diferenciar los puntos de entrada y salida de la intersección para diferentes carriles. Otro beneficio clave de nuestro enfoque es que la predicción de la estructura de la intersección es sólida para las oclusiones completas o parciales, y es capaz de predecir tanto las líneas de estructura de la intersección pintadas como las inferidas.
Los puntos clave de la intersección de la figura 1 también pueden conectarse a caminos para transitar por la intersección. Al conectar los puntos de entrada y salida de la intersección, se pueden predecir caminos y trayectorias que representan los movimientos del automóvil propio.
Nuestro enfoque de percepción en vivo permite la escalabilidad para manejar varios tipos de intersecciones sin la carga de etiquetar específicamente cada intersección por separado. También se puede combinar con información de mapas, donde hay datos de alta calidad disponibles, para crear diversidad y redundancia para el manejo de intersecciones complejas.
Nuestra capacidad de percepción de estructura de intersecciones basada en DNN estará disponible para los desarrolladores en una próxima versión del software DRIVE como un agregado adicional de nuestra DNN WaitNet. Para obtener más información sobre nuestros modelos DNN, visita nuestra página de DRIVE Perception.