[뉴스에프엔 김맹근 기자] 로봇이 복잡한 3차원 환경을 스스로 이해하고 점검할 수 있도록 돕는 훈련 없는 비전 언어 기반 검사 계획 시스템이 등장했다.

최근 외신을 종합하면 퍼듀대학교와 라이트스피드 스튜디오 공동 연구진은 최근 GPT-4o 같은 사전 훈련된 비전 언어 모델(VLM)을 활용해 자연어 명령만으로 로봇의 검사 경로를 생성하는 혁신적인 방법을 제시했다.

산업 현장과 인프라 점검에서 로봇의 역할이 점차 확대되고 있지만, 여전히 많은 검사는 인간 작업자에게 의존하고 있다. 특히 댐, 터널, 발전소 등 위험하거나 접근이 어려운 환경에서의 자동화된 검사는 실용성과 안전성 모두를 요구하는 과제다. 이를 해결하기 위한 새로운 돌파구가 열렸다.

외신에 따르면 퍼듀대학교(Purdue University) Xingpeng Sun 박사 연구팀은 라이트스피드 스튜디오(LightSpeed Studios)와 공동으로, 로봇이 자연어 설명과 3D 환경 정보를 바탕으로 자율적으로 검사 계획을 수립할 수 있도록 하는 훈련 없는 파이프라인을 개발했다고 밝혔다.

이 접근법은 최신 비전 언어 모델(VLM)인 GPT-4o를 기반으로 하며, 별도의 데이터셋 학습 없이도 높은 수준의 공간 추론을 구현한다.

Sun 박사는 Tech Xplore와의 인터뷰에서 “기존 로봇 검사 계획은 대부분 새로운 환경을 탐색하기 위한 목적에 집중되어 있지만, 우리는 잘 알려진 3D 환경 내에서 자연어 명령에 따라 정밀한 검사 경로를 생성하는 데 초점을 맞췄다”고 설명했다.

연구진이 개발한 시스템은 먼저 텍스트 설명과 이미지로부터 의미론적으로 중요한 관심 지점(Point of Interest, POI)을 식별한다. 이후 GPT-4o를 활용해 다중 이미지 뷰로부터 공간 관계(예: 내부/외부, 위/아래)를 추론하고, 이를 기반으로 혼합정수계획법(MIP)을 통해 TSP(외판원 문제)를 최적화하여 최단 경로를 생성한다.

최종적으로 이 시스템은 로봇이 이동할 수 있는 부드러운 검사 경로와 최적의 카메라 뷰포인트를 제시하며, 실제 테스트에서는 90% 이상의 공간 관계 예측 정확도를 기록했다. 이는 GPT-4o가 단순 이미지 분석을 넘어, 실시간 로봇 제어와 연계 가능한 수준의 공간 추론 능력을 보유하고 있음을 시사한다.

Sun 박사와 Aniket Bera 교수는 “이 연구는 자연어 질의만으로 로봇이 정확한 3D 검사 계획을 실행할 수 있는 가능성을 보여준다”며 “향후에는 보다 복잡한 환경에서 실시간 피드백 기능을 포함한 물리적 폐쇄 루프 검사 시스템으로 확장할 계획”이라고 밝혔다.

이 기술은 향후 원전, 항만, 대형 구조물 등에서 로봇 기반의 지능형 점검 자동화 시스템 구현을 앞당기는 데 핵심적인 역할을 할 것으로 기대된다.