Human pose estimation is one of fundamental tasks in computer vision. The aim of human pose estimation is to locate human keypoints from monocular images or videos and group these keypoints as a human part or human pose. Accurate 2D human poses provides great convenience for many high-level applications, such as action recognition, multi-object tracking, and 3D pose estimation.Depending on the starting point of the prediction, multi-person pose estimation approaches can be typically divided into two main categories: top-down and bottom-up methods. Top-down approaches have achieved excellent results but lacking efficiency due to the requirement of a separate object detector. In contrast, the efficiency and memory cost of bottom-up methods are lower than those of top-down methods. Especially, center-to-pose bottom-up methods, which model a person instance as a central point and then group joints to poses from the central point, are significantly faster than previous counterparts. However, center-to-pose bottom-up approaches still face two challenges: 1. they leverage the feature around human center location to infer the center-to-joint offset, which results in a fixed receptive field and makes long-range offset prediction difficult; 2. The location of human center and body joints are predicted by different heads. While consuming additional computational resources, the quantization error in the human center prediction head will be mapped and enlarged in joints prediction heads. In this dissertation, we review previous work and develop multi-modal pose representation to overcome the drawbacks of center-to-pose bottom-up pose estimation methods. The main work and contributions are summarized as follows:(1) A new bottom-up method, the Partitioned CenterPose (PCP) Network, is proposed to better group the adjacent joints. To achieve this goal, a novel pose representation is proposed, called Partition Pose Representation (PPR). To enhance the relationships between body joints, PPR divide the human body into five parts, and then, generate a sub-PPR for each part. Utilizing PPR, the PCP Network has the capability to detect people and their body joints simultaneously. Moreover, an improved l_1 loss is designed for more accurately measure joint offset.(2) To address the drawback of PPR in some special scenes, a new geometrical point, named a relay point, is introduced to optimize the regression of long-range offset. A relay pose representation (RPR) is proposed where the center-to-joint offset is factorized into two short-range offsets by this relay point, which reduce the impact of occlusion and the difficulty of directly regressing long-range offset. Toward an offset merging branch, the spatial information and semantic information of these two short-range offsets were merged to regress a more accurate offset. Moreover, in the grouping strategy, the initially predicted pose was optimized by a by-product of the network, relay point-to-joint offset, to further reduce the error introduced by long-range offset.(3) To utilize the advantage of polar coordinate, a Polar Confidence Representation (PCR) is proposed to perform the 2D regression in Polar coordinate system. In PCR, one human pose is integrated by a root joint, the angle of joint offset, and the length of joint offset. Based on PCR, PolarGroup is proposed that integrates the prediction of the root node with the regression of the angle into a single prediction head. To reduce the difficulty of polar ray regression, a new Intersection over Union (IoU) loss based on polar coordinate, called median-IoU Loss, is constructed to improve the efficiency and stability of the training process. For inference, multi-group grouping strategy is designed to further relieve the quantization errors by mapping.
인간 자세 추정은 컴퓨터 비전에서 기본적인 작업 중 하나이다. 인간 자세 추정의 목표는 단안 이미지나 동영상에서 인간의 키포인트를 찾고, 이러한 키포인트를 인간의 부분이나 자세로 그룹화하는 것이다. 정확한 2D 인간 자세는 행동 인식, 다중 객체 추적, 3D 자세 추정과 같은 다양한 고수준 응용 프로그램에 많은 편의를 제공한다.예측의 시작점에 따라 다중 인체 자세 추정 접근 방법은 일반적으로 top-down과 bottom-up 두 가지 주요 범주로 나눌 수 있다. Top-down 방식은 별도의 객체 탐지기가 필요하므로 탁월한 결과를 얻었지만 효율성이 부족하다. 반대로, bottom-up 방법은 top-down 방법보다 효율성과 메모리 비용이 낮다. 특히, 중심에서 자세로 이어지는 bottom-up 방법은 사람의 인스턴스를 중심점으로 모델링한 후에 관절을 중심점에서 자세로 그룹화하는 방법으로, 이전의 방법보다 훨씬 빠르다. 그러나 중심에서 자세로 이어지는 bottom-up 접근 방법은 아직 두 가지 도전에 직면하고 있다: 1. 인간 중심 위치 주변의 특성을 활용하여 중심에서 관절까지의 오프셋을 추론하는데, 이로 인해 고정된 수용 영역(receptive field)이 생성되어 멀리 떨어진 오프셋 예측이 어려워지다. 2. 인간 중심과 신체 관절의 위치는 서로 다른 헤드(head)에 의해 예측된다. 추가적인 계산 리소스를 소비하면서 인간 중심 예측 헤드의 양자화 오류가 관절 예측 헤드에서 매핑되고 확대될 수 있다. 본 논문에서는 이전 연구를 검토하고, 다중 모달 자세 표현을 개발하여 중심에서 자세로 이어지는 bottom-up 자세 추정 방법의 단점을 극복하기 위한 연구를 수행했다. 주요 연구 내용과 기여는 다음과 같이 요약된다: (1) 더 나은 관절 클러스터링을 위해 Partitioned CenterPose (PCP) Network라는 새로운 bottom-up 방법이 제안되었다. 이를 위해 Partition Pose Representation (PPR)이라는 새로운 자세 표현이 제안되었다. PPR은 신체 관절 간의 관계를 강화하기 위해 인체를 다섯 부분으로 나눈 후, 각 부분에 대해 하위 PPR을 생성한다. 이 PPR을 기반으로 PCP Network는 사람과 관련된 신체 관절을 동시에 감지하고, 관절 오프셋에 따라 모든 신체 관절을 그룹화할 수 있다. 더 나아가, 관절 오프셋을 더 정확하게 측정하기 위해 개선된 11 loss가 설계되었다.(2) PPR의 특정한 상황에서의 단점을 해결하기 위해, 중장거리 오프셋 회귀를 최적화하기 위해 릴레이 포인트라는 새로운 기하학적인 점이 도입되었다. 릴레이 포인트를 통해 중심에서 관절까지의 오프셋이 두 개의 단거리 오프셋으로 분해되는 릴레이 자세 표현 (RPR)이 제안되었다. 이는 가려짐의 영향과 중장거리 오프셋의 직접 회귀의 어려움을 줄이는데 도움이 된다. 오프셋 병합 분기를 향해, 이 두 개의 단거리 오프셋의 공간 정보와 의미 정보가 병합되어 더 정확한 오프셋을 회귀한다. 또한, 그룹화 전략에서는 초기 예측 자세를 네트워크의 부산물인 릴레이 포인트-관절 오프셋을 최적화하여 중장거리 오프셋에 의해 도입된 오류를 더욱 줄이다.(3) 극 좌표의 장점을 활용하기 위해, 극 좌표계에서 2D 회귀를 수행하기 위한 Polar Confidence Representation (PCR)이 제안되었다. PCR에서는 하나의 인체 자세가 루트 관절, 관절 오프셋의 각도, 관절 오프셋의 길이로 통합된다. PCR을 기반으로 PolarGroup이라는 개념이 소개되었는데, 이는 루트 노드의 예측을 각도 회귀와 결합하여 단일 예측 헤드로 통합한다. 극 좌표계에서의 극선 회귀의 어려움을 줄이기 위해 극 좌표를 기반으로 한 새로운 IoU (Intersection over Union) 손실인 Median-IoU Loss가 구성되어 훈련 과정의 효율성과 안정성을 향상시킨다. 추론 과정에서는 다중 그룹 그룹화 전략이 설계되어 양자화 오류를 더욱 완화하는 역할을 한다.