In che modo le auto a guida autonoma utilizzano la visione artificiale per vedere?

Pubblicato: 2021-02-08

Nel mondo di oggi, la domanda di robot o veicoli autonomi sta aumentando a un ritmo esponenziale e l'applicazione della localizzazione e mappatura simultanea (SLAM) sta ricevendo una maggiore attenzione. In primo luogo, i veicoli autonomi hanno un pacchetto di sensori come telecamere, Lidar, Radar, ecc.

Questi sensori analizzano l'ambiente intorno al veicolo prima che il veicolo prenda qualsiasi decisione cruciale riguardo al suo prossimo stato di movimento. Da Lidar e dai dati della fotocamera viene creata una mappa di localizzazione. Può essere una mappa 2D o 3D. Lo scopo della mappa è identificare gli oggetti statici attorno al veicolo autonomo come edifici, alberi, ecc. Tutti gli oggetti dinamici vengono rimossi rimuovendo tutti i punti Lidar che si trovano all'interno del riquadro di delimitazione degli oggetti dinamici rilevati. Scopri di più sulle applicazioni dell'IA

vengono rimossi anche gli oggetti statici che non interferiscono con il veicolo come superficie carrabile o rami di alberi. Una volta stabilita la griglia, possiamo prevedere un percorso senza collisioni per il veicolo. Uno degli elementi significativi di SLAM è il 3DMapping dell'ambiente che facilita i robot autonomi a comprendere l'ambiente come un essere umano per il quale molte telecamere Depth o telecamere RGB-D si rivelano preziose.

Affinché i veicoli autonomi possano navigare in modo efficiente, richiedono un quadro di riferimento e osservano l'ambiente circostante utilizzando algoritmi di visione artificiale per delineare una mappa dei dintorni e attraversare la pista. La ricostruzione 3D include l'uso della visione artificiale per osservare l'ambiente esterno utilizzando una nuvola di punti 3D basata sulla profondità.

Pertanto, il principio di base è un punto di congiunzione tra la ricostruzione 3D e la navigazione autonoma. L'aumento dell'interesse per le soluzioni 3D richiede una soluzione completa in grado di percepire l'ambiente circostante e costruire una proiezione 3D dell'ambiente circostante.

La pratica degli algoritmi di visione artificiale per realizzare l'automazione nella robotica o produrre progetti 3D è stata piuttosto comune. L'enigma simultaneo di localizzazione e mappatura è continuato per molto tempo e sono state condotte numerose ricerche per trovare metodologie efficienti per affrontare il problema della mappatura.

La ricerca attuale in questo dominio impiega telecamere costose per produrre mappe di disparità e profondità che, sebbene, siano più accurate, ma comunque costose. Diversi metodi implicano l'utilizzo di telecamere a visione stereoscopica per determinare la profondità degli oggetti circostanti, che viene ulteriormente utilizzata per produrre nuvole di punti 3D.

Sommario

Tipi di mappe di rappresentazione ambientale

Mappe di localizzazione: viene creata utilizzando una serie di punti LIDAR o funzioni dell'immagine della telecamera mentre l'auto si muove. Questa mappa, insieme a GPU, IMU e odometria, viene utilizzata dal modulo di localizzazione per stimare la posizione precisa del veicolo autonomo. quando vengono ricevuti nuovi dati LIDAR e fotocamera, viene confrontato con la mappa di localizzazione e viene creata la misurazione della posizione del veicolo autonomo allineando i nuovi dati con la mappa esistente.
Mappa della griglia di occupazione : questa mappa utilizza un insieme continuo di punti LIDAR per costruire una mappa dell'ambiente che indica la posizione di tutti gli oggetti statici utilizzata per pianificare un percorso sicuro e senza collisioni per il veicolo autonomo.

È importante notare che la presenza di oggetti dinamici nella nuvola di punti, ostacola la ricostruzione accurata della nuvola di punti. Questi oggetti dinamici impediscono l'effettivo rimodellamento dell'ambiente circostante. Allo stesso scopo, è importante formulare una soluzione che affronti questo problema.

L'intenzione principale è identificare questi oggetti dinamici utilizzando il deep learning. Una volta identificati questi oggetti, i punti che racchiudono quel riquadro di delimitazione possono essere eliminati. In questo modo, il modello ricostruito sarà completamente di oggetti statici.

La telecamera RGB-D può misurare la profondità utilizzando un sensore IR. L'output così ottenuto è costituito dai dati dell'immagine (i valori RGB) e dai dati di profondità (intervallo dell'oggetto dalla telecamera). Poiché la profondità deve essere precisa, qualsiasi discrepanza può causare un incidente mortale. Per questo motivo, le telecamere sono calibrate in modo da fornire una misurazione accurata dell'ambiente circostante. Le mappe di profondità vengono solitamente utilizzate per convalidare l'accuratezza dei valori di profondità calcolati.

La mappa di profondità è un output in scala di grigi dell'ambiente circostante in cui gli oggetti più vicini alla fotocamera possiedono pixel più luminosi e quelli più lontani contengono pixel più scuri. I dati dell'immagine che si ottengono dalla telecamera vengono trasmessi al modulo di rilevamento oggetti che identifica gli oggetti dinamici presenti nel frame.

Quindi, come identifichiamo questi oggetti dinamici che potresti chiedere?

Qui, una rete neurale di deep learning viene addestrata per identificare gli oggetti dinamici. Il modello così addestrato corre su ogni fotogramma ricevuto dalla fotocamera. Se è presente un oggetto dinamico identificato, quei frame vengono saltati. Ma c'è un problema con questa soluzione. Saltare l'intero fotogramma non ha senso. Il problema è: conservazione delle informazioni.

Per affrontare questo problema, vengono eliminati solo i pixel del riquadro di delimitazione mentre i pixel circostanti vengono mantenuti. Tuttavia, nelle applicazioni relative ai veicoli a guida autonoma e ai droni per consegne autonome, la soluzione viene portata a un altro livello. Ricorda, ho detto che otteniamo una mappa 3D dell'ambiente circostante utilizzando i sensori LIDAR.

Successivamente, il modello di deep learning (3D CNN) viene utilizzato per eliminare gli oggetti in un frame 3D (assi x, y, z). Questi modelli di rete neurale hanno output di 2 forme. Uno è l'output di previsione che è una probabilità o verosimiglianza dell'oggetto identificato. E il secondo sono le coordinate del riquadro di delimitazione. Ricorda, tutto questo sta accadendo in tempo reale. Quindi è estremamente importante che esista una buona infrastruttura per supportare questo tipo di elaborazione.

Oltre a questo, anche la visione artificiale gioca un ruolo importante nell'identificazione dei segnali stradali. Esistono modelli che funzionano insieme per rilevare questi segnali stradali di vario tipo: limite di velocità, attenzione, interruttore di velocità, ecc. Anche in questo caso, un modello di apprendimento profondo addestrato viene utilizzato per identificare questi segni vitali in modo che il veicolo possa agire di conseguenza.

Per il rilevamento della linea di corsia, la visione artificiale viene applicata in modo simile

Il compito è produrre i coefficienti dell'equazione di una corsia. L'equazione delle linee di corsia può essere rappresentata utilizzando coefficienti del primo, secondo o terzo ordine. Una semplice equazione del primo ordine è semplicemente un'equazione lineare del tipo mx+n (una retta). Le equazioni ad alta dimensione devono essere di maggiore potenza o ordine che rappresentano le curve.

I set di dati non sono sempre coerenti e suggeriscono coefficienti di corsia. Inoltre, potremmo anche voler identificare la natura della linea (tinta, tratteggiata, ecc.). Ci sono numerose caratteristiche che potremmo voler rilevare ed è quasi impossibile per una singola rete neurale generalizzare i risultati. Un metodo comune per risolvere questo dilemma consiste nell'utilizzare un approccio di segmentazione.

Nella segmentazione, lo scopo è assegnare una classe a ciascun pixel di un'immagine. In questo metodo, ogni corsia assomiglia a una classe e il modello di rete neurale mira a produrre un'immagine con corsie costituite da colori diversi (ogni corsia avrà il suo colore unico).

Leggi anche: Idee e argomenti per il progetto AI

Conclusione

Qui abbiamo discusso le applicazioni generali della visione artificiale nel dominio dei veicoli autonomi. Spero che questo articolo ti sia piaciuto.

Se sei interessato a saperne di più sull'apprendimento automatico e sull'intelligenza artificiale, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, Status di Alumni IIIT-B, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Impara il corso ML dalle migliori università del mondo. Guadagna master, Executive PGP o programmi di certificazione avanzati per accelerare la tua carriera.

A cosa serve la computer vision?

La visione artificiale è una branca specializzata dell'intelligenza artificiale che aiuta i computer a estrarre dati significativi da input visivi e prendere decisioni basate sulle informazioni derivate. La visione artificiale è in realtà un sottoinsieme multidisciplinare di intelligenza artificiale e apprendimento automatico che impiega tecniche sofisticate e algoritmi di apprendimento generali. Con l'aiuto della visione artificiale, i computer possono vedere e comprendere input come video e immagini digitali e intraprendere le azioni necessarie come programmato. Proprio come l'intelligenza artificiale aiuta i computer a pensare, la visione artificiale consente loro di osservare e comprendere. Con l'aiuto della visione artificiale, i computer possono estrarre in modo efficiente il massimo dai dati visivi per vedere un'immagine e comprenderne il contenuto.

Le auto a guida autonoma sono sicure?

Quando si tratta della sicurezza di queste auto automatiche, non si può negare apertamente alcuni aspetti apparentemente rischiosi. Innanzitutto, vengono in mente i problemi di sicurezza informatica. I veicoli autonomi possono essere vulnerabili agli attacchi informatici in cui i malintenzionati hackerano il software dell'auto per rubare l'auto o i dettagli personali del suo proprietario. Inoltre, sono probabili rischi anche problemi software senza precedenti o il pericolo che l'automobilista faccia completamente affidamento sull'auto per reagire in situazioni impreviste, causando incidenti. Tuttavia, ci sono molti vantaggi delle auto a guida autonoma, che possono bilanciare i pericoli apparenti. Le auto autonome sono rispettose dell'ambiente ed estremamente sicure nei casi di guida in stato di ebbrezza, dove i conducenti possono fare affidamento sul veicolo per un pendolarismo sicuro.

Quali aziende hanno lanciato oggi le auto a guida autonoma?

Le auto a guida autonoma o autonome sono già una parte della realtà oggi e uno degli argomenti di discussione più caldi. Con l'avanzare della tecnologia, anche le auto a guida autonoma si stanno evolvendo e lanciano modelli di prim'ordine che diventano di gran lunga superiori con il passare del tempo. I giganti automobilistici di tutto il mondo hanno già lanciato auto a guida completamente autonoma dalle loro versioni precedenti di veicoli semi-autonomi. Alcune delle aziende più degne di nota ad aver lanciato auto a guida autonoma sono Tesla, Waymo, Pony.ai e altre.