DOI QR코드

DOI QR Code

Multi-Object Goal Visual Navigation Based on Multimodal Context Fusion

멀티모달 맥락정보 융합에 기초한 다중 물체 목표 시각적 탐색 이동

  • Received : 2023.06.29
  • Accepted : 2023.08.24
  • Published : 2023.09.30

Abstract

The Multi-Object Goal Visual Navigation(MultiOn) is a visual navigation task in which an agent must visit to multiple object goals in an unknown indoor environment in a given order. Existing models for the MultiOn task suffer from the limitation that they cannot utilize an integrated view of multimodal context because use only a unimodal context map. To overcome this limitation, in this paper, we propose a novel deep neural network-based agent model for MultiOn task. The proposed model, MCFMO, uses a multimodal context map, containing visual appearance features, semantic features of environmental objects, and goal object features. Moreover, the proposed model effectively fuses these three heterogeneous features into a global multimodal context map by using a point-wise convolutional neural network module. Lastly, the proposed model adopts an auxiliary task learning module to predict the observation status, goal direction and the goal distance, which can guide to learn the navigational policy efficiently. Conducting various quantitative and qualitative experiments using the Habitat-Matterport3D simulation environment and scene dataset, we demonstrate the superiority of the proposed model.

MultiOn(Multi-Object Goal Visual Navigation)은 에이전트가 미지의 실내 환경 내 임의의 위치에 놓인 다수의 목표 물체들을 미리 정해준 일정한 순서에 따라 찾아가야 하는 매우 어려운 시각적 탐색 이동 작업이다. MultiOn 작업을 위한 기존의 모델들은 행동 선택을 위해 시각적 외관 지도나 목표 지도와 같은 단일 맥락 지도만을 이용할 뿐, 다양한 멀티모달 맥락정보에 관한 종합적인 관점을 활용할 수 없다는 한계성을 가지고 있다. 이와 같은 한계성을 극복하기 위해, 본 논문에서는 MultiOn 작업을 위한 새로운 심층 신경망 기반의 에이전트 모델인 MCFMO(Multimodal Context Fusion for MultiOn tasks)를 제안한다. 제안 모델에서는 입력 영상의 시각적 외관 특징외에 환경 물체의 의미적 특징, 목표 물체 특징도 함께 포함한 멀티모달 맥락 지도를 행동 선택에 이용한다. 또한, 제안 모델은 점-단위 합성곱 신경망 모듈을 이용하여 3가지 서로 이질적인 맥락 특징들을 효과적으로 융합한다. 이 밖에도 제안 모델은 효율적인 이동 정책 학습을 유도하기 위해, 목표 물체의 관측 여부와 방향, 그리고 거리를 예측하는 보조 작업 학습 모듈을 추가로 채용한다. 본 논문에서는 Habitat-Matterport3D 시뮬레이션 환경과 장면 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 모델의 우수성을 확인하였다.

Keywords

Acknowledgement

본 연구는 정보통신기획평가원의 재원으로 정보통신방송 기술개발사업의 지원을 받아 수행한 연구 과제(No. 2020-0-00096 클라우드에 연결된 개별로봇 및 로봇그룹의 작업 계획 기술 개발)입니다.

References

  1. S. Wani, S. Patel, U. Jain, A. Chang, and M. Savva, "Multion: Benchmarking semantic map memory using multi-object navigation," Advances in Neural Information Processing Systems(NeurIPS), Vol.33, pp.9700-9712, 2020. 
  2. P. Marza, L. Matignon, O. Simonin, and C. Wolf, "Teaching agents how to map: Spatial reasoning for multi-object navigation," in Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Kyoto, pp.1725-1732, 2022. 
  3. S. Raychaudhuri, T. Campari, U. Jain, M. Savva, and A. X. Chang, "Reduce, reuse, recycle: Modular multi-object navigation," arXiv preprint arXiv:2304.03696, 2023. 
  4. J. Kim, E. S. Lee, M. Lee, D. Zhang, and Y. M. Kim, "Sgolam: Simultaneous goal localization and mapping for multiobject goal navigation," arXiv preprint arXiv:2110.07171, 2021. 
  5. P. Chen, D. Ji, K. Lin, W. Hu, W. Huang, T. Li, M. Tan and C. Gan, "Learning active camera for multi-object navigation," Advances in Neural Information Processing Systems(NeurIPS), Vol.35, pp.28670-28682, 2022. 
  6. N. Savinov, A. Dosovitskiy, and V. Koltun, "Semi-parametric topological memory for navigation," in Proceedings of the International Conference on Learning Representations (ICLR), Vancouver, 2018. 
  7. K. Chen, J. K. Chen, J. Chuang, M. Vazquez, and S. Savarese, "Topological planning with transformers for vision-and-language navigation," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, pp.11276-11286, 2021. 
  8. D. S. Chaplot, R. Salakhutdinov, A. Gupta, and S. Gupta, "Neural topological slam for visual navigation," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Seattle, pp.12875-12884, 2020. 
  9. N. Kim, O. Kwon, H. Yoo, Y. Choi, J. Park, and S. Oh, "Topological semantic graph memory for image-goal navigation," in Proceedings of the 6th Conference on Robot Learning (PMLR), Auckland, pp.393-402, 2023. 
  10. S. Gupta, J. Davidson, S. Levine, R. Sukthankar, and J. Malik, "Cognitive mapping and planning for visual navigation," in Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV), Venice, 2017, pp.2616-2625. 
  11. D. S. Chaplot, D. P. Gandhi, A. Gupta, and R. R. Salakhutdinov, "Object goal navigation using goal-oriented semantic exploration," Advances in Neural Information Processing Systems(NeurIPS), Vol.33, pp.4247-4258, 2020. 
  12. P. Chen, D. Ji, K. Lin, R. Zeng, T. Li, M. Tan, and C. Gan, "Weakly-supervised multi-granularity map learning for vision-and-language navigation," Advances in Neural Information Processing Systems(NeurIPS), Vol.35, pp.38149-38161, 2022. 
  13. S. K. Ramakrishnan, D. S. Chaplot, Z. Al-Halah, J. Malik, and K. Grauman, "Poni: Potential functions for objectgoal navigation with interaction-free learning," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), New Orleans, pp.18890-18900, 2022. 
  14. K. Fang, A. Toshev, L. Fei-Fei, and S. Savarese, "Scene memory transformer for embodied agents in long-horizon tasks," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, pp.538-547, 2019.
  15. B. Mayo, T. Hazan, and A. Tal, "Visual navigation with spatial attention," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, pp.16898-16907, 2021. 
  16. A. Mousavian, A. Toshev, M. Fiser, J. Kosecka, A. Wahid, and J. Davidson, "Visual representations for semantic target driven navigation," in Proceedings of International Conference on Robotics and Automation (ICRA), Montreal, pp.8846-8852, 2019.