Istraživači su razvili tehniku koja omogućava programima veštačke inteligencije (AI) da bolje mapiraju trodimenzionalne prostore koristeći dvodimenzionalne slike snimljene više kamera. Pošto tehnika efikasno funkcioniše sa ograničenim računarskim resursima, obećava za poboljšanje navigacije autonomnih vozila.
„Većina autonomnih vozila koristi moćne AI programe zvane transformatori vida da bi snimili 2D slike sa više kamera i stvorili predstavu 3D prostora oko vozila“, kaže Tianfu Vu, dopisni autor rada o radu i vanredni profesor elektrotehnike i računarski inženjering na Državnom univerzitetu Severne Karoline. „Međutim, iako svaki od ovih AI programa ima drugačiji pristup, još uvek postoji značajan prostor za poboljšanje.
„Naša tehnika, nazvana Multi-View Attentive Contextualization (MvACon), je dodatak plug-and-play koji se može koristiti u kombinaciji sa ovim postojećim AI transformatorima vida kako bi se poboljšala njihova sposobnost mapiranja 3D prostora“, kaže Vu. „Vizioni transformatori ne dobijaju nikakve dodatne podatke od svojih kamera, samo su u mogućnosti da bolje iskoriste podatke.
MvACon efikasno funkcioniše modifikujući pristup pod nazivom Patch-to-Cluster (PaCa), koji su Vu i njegovi saradnici objavili prošle godine. PaCa omogućava AI transformatorima da efikasnije i efektivnije identifikuju objekte na slici.
„Ključni napredak ovde je primena onoga što smo demonstrirali sa PaCa-om na izazov mapiranja 3D prostora pomoću više kamera“, kaže Vu.
Da bi testirali performanse MvACon-a, istraživači su ga koristili u kombinaciji sa tri vodeća transformatora vida – BEVFormer, BEVFormer DFA3D varijanta i PETR. U svakom slučaju, transformatori vida su prikupljali 2D slike sa šest različitih kamera. U sva tri slučaja, MvACon je značajno poboljšao performanse svakog transformatora vida.
„Performanse su posebno poboljšane kada je u pitanju lociranje objekata, kao i brzina i orijentacija tih objekata“, kaže Vu. „A povećanje računarske potražnje za dodavanjem MvACon transformatorima za vid je bilo skoro zanemarljivo.
„Naši sledeći koraci uključuju testiranje MvACon-a u odnosu na dodatne benchmark skupove podataka, kao i testiranje u odnosu na stvarni video ulaz iz autonomnih vozila. Ako MvACon nastavi da nadmašuje postojeće transformatore vizije, optimisti smo da će biti usvojen za široku upotrebu.”
Izvor: autotech.news