"가위, 바위, 보" 놀이가 가능한 로봇 - 1부
지능형 카메라를 활용한 제스처 인식
Sebastian Trella는 기술과 로봇 공학에 열정적입니다. 그는 자신의 블로그에서 항상 새로운 작업을 수행합니다. 그러나 이미지 프로세싱을 사용해 본 경험은 거의 없습니다. 여러 가지 센서로 손동작을 인식할 수 있는 동료의 LEGO Mindstorms 로봇이 그에게 다음과 같은 아이디어를 주었습니다. "로봇이 “볼” 수 있어야 한다." 지금까지는 로봇 앞 특정 지점에서 각각의 제스처를 취해야 안정적인 인식이 가능했습니다. 이를 위해 여러 개의 센서가 필요했고, 이는 시스템의 유연성을 떨어뜨리고, 놀이의 즐거움도 약화시켰습니다. 이미지 프로세싱이 이 작업을 더 세련되게 해결할 수 있을까요?
아이디어에서 구현까지
그는 적합한 카메라를 찾던 중 지능형 이미지 프로세싱을 위한 완전한 시스템인 IDS NXT를 알게 되었습니다. 이 시스템은 인공 지능 덕분에 제스처 인식을 포함한 모든 요구 사항 외에도 훨씬 더 많은 부분을 충족시켰습니다. Trella는 더욱 더 관심을 갖게 되었습니다. 추가 PC 없이 카메라를 통해 이미지 평가와 결과 통신이 이루어졌기 때문입니다. IDS NXT Experience Kit에는 AI에 대한 사전 지식 없이 바로 어플리케이션을 사용하는 데 필요한 모든 구성 요소가 포함되어 있습니다.
Trella는 이 아이디어를 더 발전시켜, 고전적인 의미에서 유사한 프로세스를 갖춘 “가위, 바위, 보” 놀이를 할 수 있는 로봇을 개발하기 시작했습니다.참여자에게 카메라 앞에서 가위, 바위, 보 중 하나의 제스처를 취할 것을 요청합니다. 이 시점에서 가상 상대는 이미 무작위로 자신의 제스처를 결정했습니다. 움직임이 실시간으로 평가되고 승자가 표시됩니다.
첫 번째 단계: 이미지 프로세싱을 통한 제스처 인식
기존에는 몇 가지 중간 단계가 필요했습니다. Trella는 로봇에 있어 새로운 영역이라 볼 수 있는 이미지 프로세싱을 사용하여 제스처 인식을 구현함으로써 시작했습니다. 그러나 클라우드 기반 AI 비전 스튜디오인 IDS lighthouse를 통해 이를 예상보다 쉽게 실현할 수 있었습니다. 아이디어는 이제 완전한 어플리케이션으로 진화합니다. 이를 위해, 신경망은 필요한 제품 지식(이 경우 다른 시각에서의 제스처)을 가진 어플리케이션 이미지로 훈련하고, 적합한 어플리케이션 워크플로가 됩니다. "훈련 과정은 매우 쉬웠고, 수백 장의 다른 배경, 다른 각도의 가위, 바위, 보 제스처 손 사진을 찍은 후 IDS Lighthouse의 단계별 마법사를 사용했습니다. 최초 훈련 AI는 제스처를 안정적으로 인식할 수 있었습니다"라고 Sebastian Trella는 설명합니다. 이는 왼손잡이와 오른손잡이 모두 약 95%의 인식률을 기록했습니다. "가위", "바위", "보" 또는 "없음" 라벨에 대한 확률이 반환됩니다. 만족스러운 결과. 이제 획득한 데이터는 어떻게 됩니까?
추가 처리
인식된 제스처의 추가 처리는 특수 생성 vision app을 통해 수행 가능합니다. 이를 위해, 각 제스처의 캡처 이미지는 AI 평가 후 앱에 전달되어야 합니다. 게임의 규칙을 알고, 어떤 제스처가 다른 제스처를 이기는지 결정할 수 있습니다. 그런 다음 승자를 결정합니다. 개발의 첫 번째 단계에서 이 앱은 상대를 시뮬레이션합니다. 이 모든 것이 현재 제작 중이며, 다음 단계에서 “가위, 바위, 보” 놀이를 할 수 있는 로봇으로 구현될 것입니다.
놀이에서 일상적인 사용까지
처음에는 이 프로젝트가 관심을 끌기 위한 술책에 가까워 보였습니다. 하지만 이로부터 어떤 결과가 나올 수 있을까요? 슬롯 머신일까요? 아니면 인공지능 기반 수화 통역사가 될 수 있을까요?
2부에서 계속됩니다.