컴퓨터 비전의 두드러진 분야인 제스처 인식은 최근 몇 년 동안 상당한 발전을 이루었습니다. 연구자들은 제스처 인식을 위한 다양한 웨어러블 장치와 센서를 탐색했으며 특히 카메라 기반 접근 방식이 널리 퍼져 있습니다. 이러한 카메라 기반 방법은 빛의 삼원색을 나타내는 RGB(Red, Green, Blue) 데이터와 카메라에서 물체까지의 거리에 대한 정보를 제공하는 Depth 데이터를 활용합니다. 제스처 인식 정확도를 향상시키기 위해 Residual 블록이 있는 R3D(3D Deeper Residual Network) 및 주의 메커니즘이 있는 AR3D(Attention Residual 3D Network)와 같은 딥 러닝 기술이 사용되었습니다. 개별 모델보다 더 높은 정확도를 달성하기 위해 데이터 수준 융합, 기능 수준 융합, 결정 수준 융합을 포함한 융합 방법을 연구했습니다.본 논문은 R3D, AR3D v1, AR3D v2 세 가지 모델의 성능을 단일 모델과 융합 모델을 모두 사용하여 비교한다. RGB와 Depth의 두 가지 유형의 데이터가 인식률을 향상시키기 위해 이러한 모델에 동시에 입력됩니다. 실험 결과 전이 학습이 있는 RGB-D AR3D v2 모델이 우수한 정확도를 달성하는 것으로 나타났습니다. 또한 전이 학습이 없는 특정 수준의 융합은 좋은 성능을 나타냅니다. 반면, 결정 수준 융합은 전이 학습을 사용할 때 더 높은 정확도를 나타냅니다.이러한 결과를 바탕으로 제스처 인식 작업을 위한 전이 학습이 있는 RGB-D AR3D v2 모델의 결정 단계 융합 방식을 제안합니다. 전이 학습을 활용하면 제스처 인식 시스템의 정확도가 더욱 향상됩니다.
Gesture recognition, a prominent field of computer vision, has seen significant advancements in recent years. Researchers have explored various wearable devices and sensors for gesture recognition, with camera-based approaches being particularly prevalent. These camera-based methods utilize RGB (Red, Green, Blue) data, representing the three primary colors of light, and Depth data, which provides information about the distance of objects from the camera. Deep learning techniques, such as the R3D (3D Deeper Residual Network) with residual blocks and AR3D (Attention Residual 3D Network) with attention mechanisms, have been employed to improve gesture recognition accuracy. To achieve higher accuracy than individual models, studies have investigated fusion methods, including data level fusion, feature level fusion, and decision level fusion.This thesis compares the performance of three models: R3D, AR3D v1, and AR3D v2, using both single models and fusion models. Two types of data, RGB and Depth, are simultaneously fed into these models to enhance recognition rates. Experimental results reveal that the RGB-D AR3D v2 model with transfer learning achieves superior accuracy. Additionally, specific-level fusion without transfer learning exhibits favorable performance. On the other hand, decision-level fusion exhibits higher accuracy when transfer learning is employed.Based on these findings, we propose the adoption of the RGB-D AR3D v2 model with transfer learning for gesture recognition tasks. This model not only leverages the power of deep learning architectures but also benefits from the fusion of RGB and Depth data. The utilization of transfer learning further enhances the accuracy of gesture recognition systems. The proposed approach holds promise for improving the usability and effectiveness of gesture recognition in various applications.