2016년 머신러닝은 인공지능(AI: artificial intelligence) 분야의 총투자액 중 60%를 끌어 모음으로써 인공지능 분야의 핵심 동력으로 자리잡았다. 머신러닝 기법은 통계학, 공학, 의학, 자연과학 등 분야를 가리지 않고 광범위하게 적용되면서 발전을 거듭하고 있다. 뿐만 아니라 최근에는 사회과학 실증분석에서도 머신러닝 기법을 활용한 모델링을 적극적으로 도입하고 있다. 주요 이유는 머신러닝 기법의 예측력이 전통적 계량경제학 방법보다 우수할 것이라는 기대 때문이다. 이에 따라 본 연구에서는 보건 및 금융 두 종류의 데이터에 단계적 변수 선택(stepwise variable selection), 배깅(bagging), 랜덤 포리스트(random forest), SVM(Support Vector Machine) 등 다양한 머신러닝 기법과 이들을 결합시킨 결합모형을 적용하여 머신러닝 기법이 예측모형으로서 보건 및 금융 경제학에서 예측력을 향상시킬 수 있는지를 분석하였다. 이를 통해 선행연구의 실증분석 결과를 재조명하고, 예측력 차이가 발생한 원인이 무엇인지에 대하여 탐구하였다. 본 연구의 실증분석 결과를 표본외 예측성과를 중심으로 정리하면, 다음과 같다. 첫째, 전통적 회귀분석에 비해 머신러닝의 제반 기법을 결합시킨 소위 “결합모형”이 일관되게 더 우수한 예측성과를 보이는 것으로 나타났다. 둘째, 머신러닝 결합모형은 전통적 회귀분석 모형에 대해서뿐만 아니라 머신러닝의 제반 기법 내에서도 가장 우수한 예측성과를 기록했으며, 이는 보건 및 금융 데이터 모두에서 일관되게 나타났다. 셋째, SVM 등 머신러닝의 개별 기법들을 전통적 회귀분석과 비교할 경우 머신러닝의 예측력이 개별 기법 차원에서는 반드시 더 우수하다고 할 수 없다. 넷째, 앞의 세 가지 결론을 종합함으로써 발견할 수 있는 흥미로운 결론은 머신러닝 기법이 개별적으로는 전통적 회귀분석을 압도할 수 없더라도 이것들을 결합시킬 경우에는 항상 전통적 회귀분석보다 예측력이 더 뛰어나다는 점이다. 다섯째, 머신러닝의 여러 개별 기법 중 랜덤 포리스트 기법이 다른 머신러닝 기법들에 비해 가장 예측력이 우수하며, 이는 보건 및 금융 데이터 모두에서 일관되게 나타난다.
In 2016, Machine Learning became a key driver in the artificial intelligence sector by attracting 60% of the total investment in artificial intelligence(AI). Machine learning is being applied extensively in fields such as statistics, engineering, medicine, and natural sciences. In addition, social science and empirical analysis have been actively introducing machine learning techniques recently. Therefore, this study applied various machine learning techniques to health and financial economics. The purpose of this study is to explore if the predictability of machine learning techniques is better than traditional econometric models. The results of this study are summarized as below. First, the predictive performance of the so-called "combined model" which combines the techniques of machine learning is better than traditional econometric models. Second, the predictive performance of the combined model is better than other individual machine learning techniques. Third, the predictive performances of the individual machine learning techniques is not necessarily better than traditional econometric models. At last, among the various individual techniques of machine learning, random forest technique is the most predictable than other machine learning techniques.