Convolutional Pose Machines(CPM) 논문 요약
본문 바로가기
Paper

Convolutional Pose Machines(CPM) 논문 요약

by Migos 2019. 12. 3.
반응형

" " "

TL;DR : CPM은 지역적인 정보(receptive field)를 바탕으로 점차 탐지영역을 크게하여 다른 부위와의 관계를 고려한 높은 정확도의 탐지모델을 자랑한다. 이전단계 정보(belief map)를 다음 입력값으로 넘겨 보다 개선된 탐지가 가능하다.

" " "

 

CPM은 CNN 의 연속으로 이루어져 있고, 각 신체부위에 대한 2차원 신뢰맵(belief map=heat map)을 반복적으로 생성하여 이전 단계에서 생성된 신뢰맵보다 점차 좋아지게 된다. 신뢰맵이란 쉽게 얘기하면 사람 신체부위 예를들면 팔꿈치일것 같은 부분을 확률적 포인트로 표시하는 역할을 하는 지도/플랏plot 이다. 이전 단계에서 예측된 신체부위 좌표를 토대로 다시 예측을 하면 아무래도 단계의 모호성을 줄일 수 있기 때문에 단계가 거듭될수록 정확도는 높아진다.

 

이 논문의 중요 키워드로 Receptive field가 자주 언급되는데, 쉽게 탐지영역이라 하겠다. 아래 그림을 보면 초기 단계(stage) 에서는 굉장히 국소적인(좁은/작은) 네모칸(receptive field)가 형성되고 좁은 시야로 신체부위를 탐지한다. 점차 단계가 거듭될수록 네모칸은 커지고 좀더 넓은 부분을 바탕으로 부위를 탐지하는데, Figure 3에서 초기 단계는 팔꿈치를 무릎부분으로 잘못 인식하였지만 receptive field가 점차 커지면서 팔꿈치 부분을 정확히 탐지하게되는 것을 알 수 있다. 숲을 보다가 산을 보게된 격이랄까.. 

 

Pose Machine

위 그림은 CPM 네트워크의 전체적인 구조를 나타낸다. stage 초기 b1(신뢰맵)은 확률이 뒤죽박죽인 반면, 단계 2부터는 집중적인 부위에 확률이 높게 표시되어 있다. 이는 stage 1의 결과가 이미지 피쳐(feature)와 같이 stage 2의 입력값으로 들어가게 되고, 매 단계마다 신뢰맵을 뽑아서 최종적인 결과 output으로 나오게 되는 구조이다.

 

Receptive Field

이처럼 아래 탐지영역(receptive field)의 사이즈가 커질수록 정확도도 함께 높아지는 것을 보여주는 그래프다.

Gradient Vanishing Problem

또한, Gradient vanishing 문제를 해결하기 위해 단계마다 신뢰맵(belief map)의 손실(loss)를 계산하게끔 설계되었다.

우측으로 갈수록(layer가 깊어질수록) 확률분포가 좁아져 한 부분을 더욱 가리키고 있는 모습이고, output 부분은 학습이 진행될수록(Epoch이 커질수록) 넓은 범위를 예측했다가 점차 폭이 좁아지는 것을 알 수 있다.

Multi-Stage Improvement

Pose estimation에서 특히 손목, 팔꿈치부분의 탐지하는 것을 어려운 문제로 생각하는데, CPM 네트워크로 학습시킨 모델은 단계(stage)가 진행될수록 정확하게 인식하기 어려운 부분에 대해서 정확도가 개선되는 것을 보여준다.

 

그 다음 내용은 MPII, LSP, FLIC 데이터셋 등등으로 Accuracy 검증하고 SOTA 달성했다는 내용.

반응형

댓글