En el campo de las aplicaciones de tecnología de simulación digital, especialmente en el desarrollo de la conducción autónoma, la detección de objetos es un componente crucial. Implica la percepción de objetos en el entorno circundante, lo que proporciona información esencial para el proceso de toma de decisiones y la planificación de sistemas inteligentes. Los métodos tradicionales de detección de objetos suelen implicar pasos como la extracción de características, la clasificación de objetos y la regresión de posición en imágenes. Sin embargo, estos métodos están limitados por las características diseñadas manualmente y el rendimiento de los clasificadores, lo que restringe su efectividad en escenas complejas y para objetos con variaciones significativas. La llegada de la tecnología de aprendizaje profundo ha llevado a la adopción generalizada de métodos de detección de objetos basados en redes neuronales profundas. En particular, la red neuronal convolucional (CNN) ha surgido como uno de los enfoques más prominentes en este campo. Al aprovechar múltiples capas de operaciones de convolución y agrupación, las CNN son capaces de extraer automáticamente representaciones de características significativas de los datos de imágenes.
Además de los datos de imágenes, los datos de detección y rango de luz (LiDAR) juegan un papel crucial en las tareas de detección de objetos, particularmente para la detección de objetos 3D. Los datos de LiDAR representan objetos a través de un conjunto de puntos no ordenados y discretos en sus superficies. Detectar con precisión los grupos de nubes de puntos que representan objetos y proporcionar su estimación de pose a partir de estos puntos no ordenados es una tarea desafiante. Los datos de LiDAR, con sus características únicas, ofrecen una detección de obstáculos de alta precisión y una medición de distancia, lo que contribuye a la percepción de carreteras, vehículos y objetivos peatonales circundantes.
En la conducción autónoma del mundo real y en escenarios de percepción ambiental relacionados, el uso de una sola modalidad a menudo presenta numerosos desafíos. Por ejemplo, mientras que los datos de imagen pueden proporcionar una amplia variedad de información visual de alta resolución, como color, textura y forma, es susceptible a las condiciones de iluminación. Además, los modelos pueden tener dificultades para manejar las oclusiones causadas por objetos que obstruyen la vista debido a limitaciones inherentes en las perspectivas de la cámara. Afortunadamente, LiDAR exhibe un rendimiento excepcional en condiciones de iluminación desafiantes y sobresale en la ubicación espacial precisa de objetos en diversos escenarios climáticos adversos. Sin embargo, tiene ciertas limitaciones. Específicamente, la baja resolución de los datos de entrada de LiDAR da como resultado una nube de puntos dispersa cuando se detectan objetivos distantes. Extraer información semántica de los datos de LiDAR también es más desafiante que hacerlo de los datos de imagen. Por lo tanto, un número creciente de investigadores está haciendo hincapié en la detección de objetos ambientales multimodales.
Un algoritmo de percepción multimodal robusto puede ofrecer información de características más rica, una mayor adaptabilidad a entornos diversos y una mayor precisión de detección. Tales capacidades permiten que el sistema de percepción brinde resultados confiables en varias condiciones ambientales. Ciertamente, los algoritmos de detección de objetos multimodales también enfrentan ciertas limitaciones y desafíos urgentes que requieren atención inmediata. Un desafío es la dificultad en la anotación de datos. Anotar la nube de puntos y los datos de imagen es relativamente complejo y lleva mucho tiempo, particularmente para conjuntos de datos a gran escala. Además, etiquetar con precisión los datos de la nube de puntos es desafiante debido a su dispersión y la presencia de puntos ruidosos. Abordar estos problemas es crucial para futuros avances en la detección de objetos multimodales. Además, la estructura de datos y la representación de características de la nube de puntos y los datos de imagen, como dos modalidades de percepción distintas, difieren significativamente. El enfoque de investigación actual radica en integrar eficazmente la información de las dos modalidades y extraer características precisas y completas que se puedan utilizar eficazmente. Además, procesar datos a gran escala de nubes de puntos también es igualmente desafiante. Los datos de la nube de puntos generalmente abarcan un número sustancial de coordenadas 3D, lo que requiere mayores demandas de recursos informáticos y eficiencia algorítmica en comparación con los datos de imagen puros.
Vea el artículo:
Jia Mingda, Yang Jinming, Meng Weiliang, Guo Jianwei, Zhang Jiguang, Zhang Xiaopeng. 2024. Estudio sobre la fusión de nubes de puntos e imágenes para la detección de objetos ambientales. Revista de Imagen y Gráficos, 29(06):1765-1784[DOI: 10.11834/jig.240030]
Revista
Revista de Imagen y Gráficos
Título del artículo
Estudio sobre la fusión de nubes de puntos e imágenes para la detección de objetos ambientales
Fecha de publicación del artículo
19-jun-2024