¿Cómo los autos autónomos usan la visión artificial para ver?

Publicado: 2021-02-08

En el mundo actual, la demanda de robots o vehículos autónomos está aumentando a un ritmo exponencial y la aplicación de localización y mapeo simultáneos (SLAM) está recibiendo una mayor atención. En primer lugar, los vehículos autónomos tienen un conjunto de sensores como cámaras, Lidar, Radar, etc.

Estos sensores analizan el entorno alrededor del vehículo antes de que el vehículo tome una decisión crucial con respecto a su próximo estado de movimiento. A partir de Lidar y los datos de la cámara, se crea un mapa de localización. Puede ser un mapa 2D o 3D. El propósito del mapa es identificar los objetos estáticos alrededor del vehículo autónomo, como edificios, árboles, etc. Todos los objetos dinámicos se eliminan eliminando todos los puntos Lidar que se encuentran dentro del cuadro delimitador de objetos dinámicos detectados. Más información sobre las aplicaciones de la IA

Los objetos estáticos que no interfieren con el vehículo también se eliminan, como la superficie transitable o las ramas de los árboles. Una vez establecida la cuadrícula, podemos predecir una ruta libre de colisiones para el vehículo. Uno de los elementos significativos de SLAM es el mapeo 3DM del entorno que facilita que los robots autónomos entiendan el entorno como un ser humano, para lo cual resultan valiosas muchas cámaras de profundidad o cámaras RGB-D.

Para que los vehículos autónomos naveguen de manera eficiente, requieren un marco de referencia y observan el entorno circundante utilizando algoritmos de visión por computadora para delinear un mapa de su entorno y atravesar la pista. La reconstrucción 3D incluye el uso de la visión artificial para observar el entorno exterior utilizando una nube de puntos 3D basada en la profundidad.

Por lo tanto, el principio básico es un punto de unión entre la reconstrucción 3D y la navegación autónoma. El creciente interés por las soluciones 3D exige una solución completa que pueda percibir el entorno y construir una proyección 3D del entorno correspondiente.

La práctica de los algoritmos de visión por computadora para generar automatización en robótica o producir diseños en 3D ha sido bastante común. El enigma de la localización y el mapeo simultáneos ha continuado durante mucho tiempo y se están realizando muchas investigaciones para encontrar metodologías eficientes para abordar el problema del mapeo.

La investigación actual en este dominio emplea cámaras costosas para producir mapas de disparidad y profundidad que, aunque son más precisos, siguen siendo costosos. Los diferentes métodos implican el uso de cámaras de visión estereoscópica para determinar la profundidad de los objetos circundantes, que luego se utiliza para producir nubes de puntos 3D.

Tabla de contenido

Tipos de mapas de representación del entorno

  • Mapas de localización: se crea utilizando un conjunto de puntos LIDAR o características de imagen de cámara a medida que se mueve el automóvil. El módulo de localización utiliza este mapa junto con GPU, IMU y odometría para estimar la posición precisa del vehículo autónomo. a medida que se reciben nuevos datos LIDAR y de la cámara, se comparan con el mapa de localización y se crea la medición de la posición del vehículo autónomo al alinear los nuevos datos con el mapa existente.
  • Mapa de cuadrícula de ocupación : este mapa utiliza un conjunto continuo de puntos LIDAR para crear un entorno de mapa que indica la ubicación de todos los objetos estáticos. Se utiliza para planificar una ruta segura y sin colisiones para el vehículo autónomo.

Es importante señalar que la presencia de objetos dinámicos en la nube de puntos dificulta la reconstrucción precisa de la nube de puntos. Estos objetos dinámicos impiden la remodelación real del entorno. Con el mismo propósito, es importante formular una solución que aborde este problema.

La intención principal es identificar estos objetos dinámicos utilizando el aprendizaje profundo. Una vez que se identifican estos objetos, los puntos que encierran ese cuadro delimitador se pueden descartar. De esta forma, el modelo reconstruido será completamente de objetos estáticos.

La cámara RGB-D puede medir la profundidad usando un sensor IR. La salida así obtenida son datos de imagen (los valores RGB) y datos de profundidad (rango del objeto desde la cámara). Dado que la profundidad tiene que ser precisa, cualquier desajuste puede causar un accidente fatal. Por esta razón, las cámaras están calibradas de manera que proporcionen una medición precisa del entorno. Los mapas de profundidad se utilizan normalmente para validar la precisión de los valores de profundidad calculados.

El mapa de profundidad es una salida en escala de grises del entorno en el que los objetos que están más cerca de la cámara poseen píxeles más brillantes y los que están más lejos tienen píxeles más oscuros. Los datos de imagen que se obtienen de la cámara se transmiten al módulo de detección de objetos que identifica los objetos dinámicos presentes en el marco.

Entonces, ¿cómo identificamos estos objetos dinámicos?

Aquí, se entrena una red neuronal de aprendizaje profundo para identificar los objetos dinámicos. El modelo así entrenado recorre cada cuadro recibido de la cámara. Si hay un objeto dinámico identificado, esos cuadros se saltan. Pero, hay un problema con esta solución. Saltarse todo el cuadro no tiene sentido. El problema es la retención de información.

Para abordar esto, solo se eliminan los píxeles del cuadro delimitador, mientras que se conservan los píxeles circundantes. Sin embargo, en aplicaciones relacionadas con vehículos autónomos y drones de reparto autónomos, la solución se lleva a otro nivel. Recuerde, mencioné que obtenemos un mapa 3D de los alrededores usando sensores LIDAR.

Después de eso, el modelo de aprendizaje profundo (3D CNN) se usa para eliminar objetos en un marco 3D (ejes x, y, z). Estos modelos de redes neuronales tienen salidas de 2 formas. Uno es el resultado de la predicción, que es una probabilidad o probabilidad del objeto identificado. Y el segundo son las coordenadas del cuadro delimitador. Recuerde, todo esto está sucediendo en tiempo real. Por lo tanto, es extremadamente importante que exista una buena infraestructura para soportar este tipo de procesamiento.

Aparte de esto, la visión artificial también juega un papel importante en la identificación de las señales de tráfico. Hay modelos que se ejecutan en conjunto para detectar estos letreros de calles de varios tipos: límite de velocidad, precaución, interruptor de velocidad, etc. Nuevamente, se usa un modelo de aprendizaje profundo entrenado para identificar estos signos vitales para que el vehículo pueda actuar en consecuencia.

Para la detección de líneas de carril, la visión por computadora se aplica de manera similar

La tarea es producir los coeficientes de la ecuación de una línea de carril. La ecuación de las líneas de los carriles se puede representar usando coeficientes de primer, segundo o tercer orden. Una ecuación simple de primer orden es simplemente una ecuación lineal del tipo mx+n (una línea recta). Ecuaciones de alta dimensión por ser de mayor potencia u orden que representa curvas.

Los conjuntos de datos no siempre son consistentes y sugieren coeficientes de línea de carril. Además, es posible que también queramos identificar la naturaleza de la línea (sólida, discontinua, etc.). Existen numerosas características que podemos querer detectar y es casi imposible que una sola red neuronal generalice los resultados. Un método común para resolver este dilema es emplear un enfoque de segmentación.

En la segmentación, el propósito es asignar una clase a cada píxel de una imagen. En este método, cada carril se asemeja a una clase y el modelo de red neuronal tiene como objetivo producir una imagen con carriles que consisten en diferentes colores (cada carril tendrá su color único).

Lea también: Ideas y temas de proyectos de IA

Conclusión

Aquí discutimos las aplicaciones generales de la visión artificial en el dominio de los vehículos autónomos. Espero que hayas disfrutado este artículo.

Si está interesado en obtener más información sobre el aprendizaje automático y la IA, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, Estado de ex alumnos de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.

Aprenda el curso ML de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

¿Para qué se utiliza la visión artificial?

La visión por computadora es una rama especializada de la inteligencia artificial que ayuda a las computadoras a extraer datos significativos de las entradas visuales y tomar decisiones basadas en la información derivada. La visión artificial es en realidad un subconjunto multidisciplinario de inteligencia artificial y aprendizaje automático que emplea técnicas sofisticadas y algoritmos generales de aprendizaje. Con la ayuda de la visión por computadora, las computadoras pueden ver y comprender entradas como videos e imágenes digitales y tomar las acciones necesarias según lo programado. Al igual que la inteligencia artificial ayuda a las computadoras a pensar, la visión artificial les permite observar y comprender. Con la ayuda de la visión por computadora, las computadoras pueden extraer de manera eficiente el máximo de los datos visuales para ver una imagen y comprender el contenido.

¿Son seguros los coches autónomos?

Cuando se trata de la seguridad de estos coches automáticos, no se pueden negar algunos aspectos aparentemente arriesgados. En primer lugar, me vienen a la mente las preocupaciones de seguridad cibernética. Los vehículos autónomos pueden ser vulnerables a los ataques cibernéticos en los que los malhechores piratean el software del automóvil para robar el automóvil o los datos personales de su propietario. A continuación, fallas de software sin precedentes o los peligros de que el automovilista dependa completamente del automóvil para responder en situaciones inesperadas, lo que resulta en accidentes, también son riesgos probables. Sin embargo, hay muchos beneficios de los autos sin conductor, que pueden equilibrar los peligros aparentes. Los autos autónomos son amigables con el medio ambiente y extremadamente seguros en casos de conducción en estado de ebriedad, donde los conductores pueden confiar en el vehículo para un viaje seguro.

¿Qué empresas han lanzado coches autónomos a partir de hoy?

Los coches autónomos o autónomos ya son parte de la realidad hoy en día y uno de los temas de debate más candentes. A medida que avanza la tecnología, los autos sin conductor también están evolucionando y lanzando modelos de primer nivel que se vuelven muy superiores con el paso del tiempo. Los gigantes automovilísticos de todo el mundo ya han lanzado automóviles totalmente autónomos a partir de sus versiones anteriores de vehículos semiautónomos. Algunas de las empresas más destacadas que han lanzado coches autónomos son Tesla, Waymo, Pony.ai y otras.