기업의 데이터의 80%이상은 비정형 데이터라고 한다. 데이터의 양과 복잡도가 계속 증가하면서 대량의 비정형 데이터 수집과 분석 및 활용에 대한 요구가 증대되고 있다. 그렇기에 방대한 양의 비정형 데이터를 어떻게 활용할 수 있을지에 대한 고찰이 필요하다. 비정형 데이터를 분석하기 위해서는 분석이 용이하도록 비정형데이터를 정형화시키고 새로이 정의하여야 한다. 이를 위해 온톨로지와 같은 분류 체계 구축이 필요하다. 온톨로지 구축으로 비정형 데이터의 정형화가 가능하고, 이는 데이터의 유지보수 관리 측면에서도 유용하다. 더불어 비정형데이터를 정형화할 때에 특정 키워드가 많이 출현한 경우, 키워드로 해당 문서를 분류한다. 하지만, 문맥상의 의미에 따라 키워드의 의미가 변할 수 있기 때문에 기존의 키워드 빈도수 기반의 정형화 방법론이 아닌 새로운 방법론이 필요하다. 본 연구는 N사의 프로젝트를 이용하여 키워드 빈도수 기반의 정형화가 아닌, 룰 기반으로 문장 단위의 분석을 통해 정형화를 진행하였다. 연구자는 비정형데이터를 정형화하기 위해 IBM의 Watson Explorer를 활용하였다. 툴을 활용한 비정형데이터 정형화 프로세스를 제시하고, 이를 사례연구를 통해 살펴보고 얻게 된 결론 및 시사점을 제시하고자 한다.
More than 80% of enterprise data is unstructured data. As data volume and complexity continue to increase, there is a growing demand for large amounts of unstructured data collection, analysis, and utilization. Therefore, it is necessary to consider how to use a large amount of unstructured data. In order to analyze unstructured data, unstructured data should be formalized and newly defined to facilitate analysis. To do this, it is necessary to construct a classification system like ontology. It is possible to formulate unstructured data by constructing an ontology, which is also useful in maintenance of data. In addition, when a large number of specific keywords appear at the time of stereotyping unstructured data, the document is classified by keywords. However, since the meaning of a keyword can be changed according to the meaning of the context, a new methodology is required instead of the conventional keyword frequency based formatting methodology.In this study, we used N project to formalize through rule - based sentence - level analysis rather than keyword frequency - based formalization. The researchers used IBM's Watson Explorer to format the unstructured data. This paper presents the process of unstructured data formatting using tools and presents conclusions and implications that have been obtained through case studies.