보이고, 저장되고, 학습되다

무작위로 놓인 오브젝트를 잡는 것은, 특히 산업 자동화에서 중심이 되는 작업입니다. 그러나, 현재의 Bin Picking(빈 피킹) 솔루션은 종종 유연하지 않고 그리핑될 워크피스(workpiece)에 대해 엄격하게 맞춰집니다. 로봇 학습 그룹의 연구 프로젝트는 개선책을 줄 것입니다. 예를 들어, 컨테이너에서 이전에 알려지지 않은 오브젝트를 픽업하는 방법을 독립적으로 학습하는 로봇을 이용한 개선책을 줄 수 있습니다. 이러한 작업을 학습하기 위하여, 로봇은 먼저 인간이 하듯이 무작위로 그립핑(gripping) 시도들로 시작합니다. 신경망은 촬영한 3D 이미지를 성공 또는 실패한 그립핑 시도와 연결합니다. 각 이미지에 대하여, 그리퍼(gripper)의 힘 센서에 의해 결정된 잡기 결과가 저장됩니다. AI (인공 지능)는 저장된 데이터를 사용하여 오브젝트에 대한 의미 있는 그립핑 포인트들을 식별하여, 자체적으로 "훈련"합니다. 강화 학습*의 최신 방법들에서 보통 그러하듯이, 이를 위하여 많은 양의 데이터와 많은 그립핑 시도들이 필수적입니다. 그러나, KIT의 연구원들은 후자의 수를 상당히 줄임으로써, 학습에 필요한 시간을 단축할 수 있었습니다.

적합한 그립으로 훈련 시간을 줄입니다

어떻게 파악되어 학습될 수 있었을까

분석 (또는 모델 기반) 그립핑 방법들과 대조적으로, ROLE 로봇은 인식에 필요한 기능을 미리 설명할 필요가 없습니다. 그러나, 이는 시스템이 "유사한" 이미지로 오브젝트를 성공적으로 캡처할 수 있었던 빈도에 중요한 역할을 합니다. 로봇이 시도하는 그립은 빠른 학습 성공에 매우 중요합니다. 신경망의 도움으로, 기존 지식을 사용하여 그립핑 결과를 예측할 수 있습니다.

KIT의 연구원이자 로봇 학습 그룹(Robot Learning Group)의 일원인 Lars Berscheid는 "잘 작동하는 시스템을 위해서는 현재 약 20,000번의 그립핑 실험이 필요합니다. 이는 로봇에 대한 약 80시간의 훈련 시간에 해당합니다."라고 설명합니다. 이러한 수치들은 대략적인 값이며, 구성 요소 모양에 영향을 받는 무작위 그립의 그립핑 비율(gripping rate)와 같은 여러 요인에 따라 달라집니다. 학습 시스템에서 흔히 볼 수 있듯이, 사용 가능한 데이터의 양은 시스템 기능의 제한 요인입니다.

"그러므로, 우리 연구의 필수 과제는 필요한 그립핑 시도 횟수를 줄이는 것입니다. 따라서 여기서 핵심적인 과학적인 질문은 다음과 같습니다: 가능한 한 빨리 많은 정보를 얻고 훈련 시간을 단축하기 위해 어떤 그립을 시도해야 합니까?”라고 Berscheid는 덧붙입니다.

이 시점에서, 전송 학습도 사용됩니다. 이미 훈련된 신경망에 대한 지식을 이전에 미지의 오브젝트를 인식하는 데 사용할 수 있습니다. 시스템의 훈련 오브젝트의 수와 범위가 클수록, 미지의 오브젝트로 더 잘 일반화할 수 있습니다. 이것은 어플리케이션에 대한 특정 오브젝트의 훈련의 필요성을 영구적으로 제거할 수 있습니다. 장기적인 목표는 산업적 신뢰성으로 임의적이고 알려지지 않은 것을 독립적이고 유연하게 파악할 수 있는 제어 시스템입니다.

주어진 모델 없이 학습

이것이 바로 오늘날의 빈 피킹(Bin Picking) 솔루션의 중요한 차이점입니다. ROLE 그룹의 연구 시스템은 그립될 워크피스의 "학습된" 모델 없이 작동하므로, 알려지지 않은 오브젝트에 대해서도 작동합니다. 원칙적으로, 그 형태와 성질에 대한 제한은 없습니다. 재료 및 표면 특성에 대한 지식도 필요하지 않으며 암시적으로 학습됩니다. 이는, 모델 없는 접근법의 큰 장점으로, 모델 없는 접근법은 오브젝트의 3D 형상이나 그립핑 프로세스의 수학적 모델링이 필요하지 않습니다.

프로그래밍 노력을 줄이고 업계에서 유연하게 사용될 수 있습니다. 인트라로지스틱스(intralogistics)에서 서비스 로봇에 이르기까지, 많은 새로운 어플리케이션들의 자동화가 가능할 것입니다. 동시에, 그립핑 자체에 추가하여, 이동과 같은 다른 유형의 오브젝트 조작이 실현될 수 있습니다. 로봇은 다음 단계에서 더 잘 그리핑할 수 있도록, 오브젝트를 독립적으로 움직이는 방법을 배웁니다. 이를 통해 어떠한 추가 장비(예: 진동판)없이도 상자를 완전히 비울 수 있습니다.

로봇의 훈련은 사람의 개입 없이 완전히 작동합니다. 실제로 이러한 학습 프로세스의 자동화가, 가장 큰 과제들 중 하나입니다. 예를 들어, 주어진 사이클 시간과 같은 모든 요구 사항을 시스템이 충족할 때에만, 생산에 생산적으로 사용될 수 있으며 물론 더 많은 것을 배울 수 있습니다.

여기에서도 빈 피킹 어플리케이션의 일반적인 절차에 비해 시간 상의 이점이 있습니다. 한편으로, ROLE 시스템이 다음 그립을 계산하기 위한 시간은 고작 20밀리초로, 매우 빠릅니다. 반면, 시스템이 시운전될(commissioned) 때, 수동 프로그래밍이 줄어듭니다. 따라서 빈 피킹은 상당한 유연성을 얻을 수 있습니다.

ROLE 그룹의 시스템은 알 수 없는 오브젝트에도 작동합니다.
ROLE 그룹 연구원은 Ensenso SDK를 사용하여 깊이 이미지(depth image)를 캡처하고, 이를 OpenCV 및 TensorFlow로 처리합니다.

3D 이미지 데이터를 기본으로

로봇의 시각 데이터는 Ensenso 3D 카메라에 의하여 제공됩니다. 로봇의 시각 데이터는 컨테이너를 위에서부터 본 것으로, 하나 이상의 유형의 오브젝트로 무작위로 채워집니다. 이미지 처리 시스템은 상자의 내용물에 하이 콘트라스트 텍스처를 투영하고, 그레이스케일(grayscale)의 깊이 이미지를 계산하기 위한 기준으로 위에서 보이는 표면의 3D 포인트 클라우드를 생성합니다. 이 단계는 Ensenso SDK에서 직접 구현됩니다. 그 다음에, 깊이 이미지는 12,000 픽셀의 해상도로 크기가 조정되고 AI 알고리즘의 입력으로 사용됩니다. 그 다음에, 신경망은 이미지 분석과 상자에 다음 그립을 위한 논리적인 단계를 처리합니다. 카메라는 상이한 실험들을 유연하게 실현할 수 있도록 로봇의 "머리"에 직접 장착됩니다. "Ensenso N10 카메라를 선택했습니다. 이 모델은 오브젝트까지의 최소 거리가 30cm에 불과하고 전체 거리 범위가 넓기 때문입니다. 움직이는 장면에도 적합한 적외선 범위의 액티브 스테레오 카메라로서, 우리의 모든 요구 사항을 충족합니다,"라고 Berscheid는 카메라 모델 선택을 설명했습니다.. Ensenso N10 카메라의 견고한 소형 알루미늄 하우징에는 트리거 및 플래시를 위한 나사식 GPIO 커넥터와 USB 2.0 연결을 가지며, 2개의 흑백 CMOS 센서 (글로벌 셔터, 752x480 픽셀)와 850nm에서 작동하는 적외선 파장 패턴 프로젝터가 장착되어 있습니다.

MVTec HALCON 인터페이스 및 객체 지향 API (C++, C#/.NET)와 함께 사전-보정되고 제공되는 3D 카메라는, 3.6~16mm의 초점 거리를 가지며, 최대 2,000mm의 작동 거리에 적합하며, 움직이는 오브젝트들의 3D 감지를 위하여 사용될 수도 있습니다. ROLE 그룹 연구원은 Ensenso SDK의 NxLib를 사용하여 깊이 이미지를 캡처하고 이를 OpenCV 및 TensorFlow로 처리합니다.

전망

KIT에서 개발된 방법은 트렌드를 주도하고 있지만, 연구자들은 아직 목표에 도달하지 못했습니다. "빈 피킹은 이미 나사와 같이 단순한 오브젝트에 대해 신뢰할 만하게 작동하지만, 특히 더 복잡하고 알려지지 않은 오브젝트를 잡기 위해 제품 완성에 도달하기 위해 필요한 연구가 여전히 남아 있습니다. 그러나, 우리가 개발하는 방법은 기본적이고 유연하며, 다양한 작업에 사용될 수 있습니다,"라고 Lars Berscheid는 말했습니다. 자율 학습 시스템은 로봇 연구의 핵심 주제로 남아 있습니다. 어플리케이션-지향 프로젝트로부터, 과학자들은 생산에서 더 많은 유연성이 필요한 것을 깨닫고 있으며, 이는 로봇 공학에서 종종 더 많은 센서를 사용하여 더 많은 이미지를 처리하도록 합니다.

KIT에서, 연구는 계속해서 두 가지 핵심 주제에 초점을 맞출 것입니다: 첫째, 기본 학습 방법을 개선하고 가속화할 수 있는 방법입니다. 디지털 트윈을 통한 교육, 컴퓨터 상의 시뮬레이션, 및 실제 로봇으로의 후속 전송과 같은 기술은 물론 서로 다른 작업들 간의 지식 전달도 유망합니다. 둘째, 과학자들은 로봇 시스템 학습으로 어떤 새로운 어플리케이션을 더 잘 자동화할 수 있을지 또는 처음으로 자동화할 수 있을지를 연구하고 있습니다. 예를 들어, 직물 처리(수건과 옷을 잡고 접는 것), 재활용을 위한 전기 모터와 같은 산업 부품의 해체, 카메라 데이터에 기반하여 알 수 없는 오브젝트에 대한 페인팅, 또는 액체 또는 알갱이 매질(granular media) 처리 등에서, 흥미로운 가능성이 있습니다. 이 작업은 시뮬레이션으로 학습되고, 그 다음 실제 로봇으로 전송됩니다.

예를 들어, 문제는 어떻게 그립 비율(gripping rate)를 더욱 높이면서 시스템의 견고성을 달성할 수 있는 지입니다. "원칙적으로, 우리는 ROLE 시스템으로 95% 이상의 잡는 비율을 달성할 수 있습니다,"라고 Berscheid는 설명합니다. 이는 100번의 그립핑 시도들 중 최대 5번이 실패한 것을 의미합니다. 이제 발생하는 질문: 더 긴 학습을 통해, 실패한 시도들을 더 줄일 수 있습니까?

또 다른 중요한 문제는, 어떻게 시스템이 깊이 이미지에서 누락된 3D 데이터를 처리할 지입니다. 현재, ROLE 팀은 오브젝트를 위에서 수직으로 잡는 것만으로 스스로를 제한합니다. 그러나 시스템이 6가지 자유도들을 모두 사용할 수 있는 방법은 무엇입니까? 모델 없는 빈 피킹의 다른 전형적인 도전, 특히 그립된 오브젝트의 보관 또는 추가 처리와 같은 후속 공정 단계를 위해 새로운 솔루션이 모색됩니다.

KIT 과학자들은 여전히 할 일이 많지만, 접근 방식과 이전 결과는 산업용 머신 러닝의 엄청난 잠재력을 보여줍니다. 3D 이미지 처리는 필연적으로 이와 관련이 있으며, 완벽한 그립을 향한 "로봇 손"을 제어하기 위한 중요한 기본 데이터를 제공합니다. 보이고, 저장되고, 학습되다- 그것이 바로 미래입니다.

*) 기계 영역의 학습 강화, 전략이 보상에 의해 지원되는 독립적으로 학습됨.

Ensenso N10 - 빠르고 정확한 3D 비전

  • USB 2.0 인터페이스로 – 다재다능하고 유연함

  • 컴팩트하고 강력한 알루미늄 하우징

  • 통합 글로벌 셔터 CMOS 센서 및 패턴 프로젝터

  • 64개의 디스패리티(disparity) 수준 및 전해상도에서 초당 최대 30프레임

  • 최대 2,000mm (N10)의 작동거리와 다양한 영역 설정이 설계 가능합니다.

  • 멀티-카메라 모드에서 사용되는 모든 카메라로부터 데이터로 단일 3D 포인트 클라우드의 출력

  • 다수의 관찰 방향에서 3D 포인트 클라우드의 라이브 구성

  • 질감 없는 표면을 캡처하기 위한 "투영된 질감 스테레오 비전" 프로세스

  • 정물과 움직이는 오브젝트 모두 캡처

  • Window 및 Linux 용 드라이버와 API가 포함된 무료 소프트웨어 패키지

  • USB와 GigE 모델을 지원하는 하나의 소프트웨어 패키지

  • 소스 코드가 있는 HALCON, C, C++ 및 C# 샘플 프로그램

  • 미리 보정되어 있어 쉬운 셋업

  • 보정 판으로 로봇 손 보정하기 위한 통합 기능

  • 예를 들어, 추가 색상 정보 또는 바코드를 캡처하기 위한 소프트웨어 측에 uEye 산업용 카메라 통합

  • 유연한 데이터 및 프레임 레이트를 위한 서브샘플링과 비닝