본 연구는 데이터 생성환경 변화에 따라 전체 데이터의 약 90%가 특정 구조로 정형화되지 않은 비정형 데이터로 이루어진 점에서 지역 연구에 있어 비정형 데이터를 이용하여 기존 정형 데이터 기반 분석의 한계를 보안하면서 새로운 의미 있는 정보를 도출하고 비정형 데이터 원천 자료 별 분석 결과를 비교하여 각 데이터의 특징을 파악하고자 하였다. 우선 지역 연구와 관련된 선행연구를 검토하여 지역의 특성 및 지역 내 이슈 등을 파악하고 분석하기 위해서는 정형데이터 뿐만 아니라 더 방대하고 숨겨진 유용한 의미를 도출할 수 있는 가능성을 지닌 비정형데이터 분석이 필요함을 지적하였다. 연구 목적에 적합한 지역 분석을 수행하기 위해서는 현재 접할 수 있는 다양한 비정형 데이터 자원 별 분석 및 비교의 필요성을 제시하였다. 따라서 본 연구에서는 서로 다른 주체에 의해 생성된 객관적·주관적 비정형 데이터 자원별 텍스트 분석을 통해 연구의 시간적 범위(2010~2014년) 내에서 지역의 특성 및 발생하는 이슈 등을 분석하고 각 데이터의 특징을 비교 하였다.본격적인 분석에 앞서 사례 지역에 대하여 다각적인 입장에서 생성된 각각의 데이터를 웹 크롤링 하였다. 비정형 텍스트 데이터 중 지역 내에서 발생한 상대적으로 객관적인 데이터인 지역 신문(홍천뉴스)기사, 지역 외에서 발생한 상대적으로 객관적인 데이터인 종합일간지(조선일보)기사, 지역 내·외에서 발생한 상대적으로 주관적인 데이터인 블로그(네이버) 포스트를 활용하여 사례지역의 특성을 분석하였다. 수집된 텍스트 데이터는 개념연결(Concept-link) 및 텍스트 군집(Text Clustering)분석을 통해 텍스트 마이닝을 수행하였다.분석결과, 지역신문(홍천뉴스)의 경우 종합일간지(조선일보)와 블로그 포스트(네이버) 보다 지역 자체의 특성과 다양한 항목의 정보를 포함하고 있음을 확인할 수 있었다. 특히 공공 행정, 보건 및 정치 등과 관련된 정보가 우세하게 나타났다. 하지만 보건, 복지 등과 같은 지역의 긍정적인 이슈에 대한 보도가 중점적이고 부정적인 이슈에 대한 보도의 비중은 극히 낮은 것을 확인할 수 있었다. 종합일간지(조선일보)의 경우 지역에서 발생하는 사건, 사고나 기후, 광고성 관광지 등의 정보가 우세하게 나타났다. 지역신문에 비해 상대적으로 사례지역인 ‘홍천’을 검색했을 때 등장하는 기사의 수가 적었지만 지역 내 부정적 이슈를 파악할 수 있었다. 블로그 포스트(네이버)의 경우 앞서 언급한 두 개의 비정형 데이터에 비해 데이터의 크기가 가장 크지만 대부분의 포스트가 여행 후기 및 정보, 광고 등에 집중되어 있어 상대적으로 수집된 데이터가 담고 있는 정보의 범위가 좁다. 홍천군 내의 지역 계획, 현황 보다는 지역의 여행 정보, 부동산 관련 정보 및 홍보성 포스팅에 대한 정보를 파악할 수 있었다. 본 연구는 기존의 지역 연구에서 주로 활용되지 못했던 비정형 텍스트 데이터를 기반으로 지역 특성 및 이슈를 분석하였다. 이를 통해 정형데이터로는 도출하기 어려운 지역만의 특성과 이슈를 파악할 수 있었다. 또한 분석 대상이 되는 서로 다른 비정형 데이터 자원별 분석 결과 비교를 통해 원천자료별 특징을 파악 하였다는 의의가 있다. 본 연구에서 제시한 원천 자료의 특징 및 지역 특성 분석 결과를 통해 향후 지역 연구에 있어 목적에 적합한 비정형데이터 선별 시 유연하게 적용할 수 있을 것으로 판단된다.
Recently, according to a change in the environment where data was created, approximately 90% of entire data was composed of unstructured data that were not structured in a specific structure. In this respect, this study was intended to make up for weak points having limits in the conventional structured data-based analysis and to derive meaningful information by using the unstructured data in regional studies, and to grasp the features of each source by comparing the results of analysis. First of all, based on the review of previous research related to regional studies, it was pointed out that the unstructured data of which the vast amount and which could derive a hidden useful meaning needed to be analyzed as well as the structured data in order to grasp and analyze the characteristics and issues of area. This study presented the necessity of understanding and comparison analysis according to currently accessible various unstructured data for area analysis appropriate to the purpose of study. Therefore, in this study, the characteristics of area, occurring issues, etc. were analyzed, and the features of each data sources were compared by implementing text analysis on the resources of objective·subjective unstructured data created by main agents different from each other, within the time range of study (year 2010~2014).Before the analysis, web crawling to collect each unstructured data created from different angles with regard to case region. Among the unstructured text data, by utilizing an item in local newspaper (Hongcheon News), relatively objective data occurring inside the area, national daily (Chosun Ilbo), relatively objective data occurring outside the area, and blog (Naver) post, relatively subjective data occurring inside·outside the area, the characteristics of case region were analyzed. The collected text data were text mining via concept-link and text clustering analysis. According to the results of analysis, it was possible to verify that local newspaper (Hongcheon News) contained area's own characteristics and diverse items of information in comparison with national daily (Chosun Ilbo) and blog post (Naver). In particular, information relating to public administration, health, politics, and the like was predominantly shown. However, it was possible to verify that its attention was focused on report about the positive issues of area, such as health, welfare, etc, while the portion of reports about negative issues was extremely small. In case of national daily (Chosun Ilbo), information about accident or incident occurring in the area, weather, or advertorial about tourist attractions was predominantly shown. In comparison with local newspaper, when a search was performed with the keyword of 'Hongcheon', the number of reports was small in the search results. However, it was possible to comprehend a negative issue inside the area. In case of blog post (Naver), the size of data was the largest in comparison with previously mentioned 2 types of unstructured data. However, most of posts focused on a tourism review, information, and advertisement, and so on. So, the scope of information contained in the collected data is relatively narrow. It was possible to get information about tourism, real estate, and advertisement rather than local plan and status inside ‘Hongcheon’.This study analyzed the characteristics and issues of area on the basis of unstructured text data that had not been mainly utilized in the conventional regional studies. This made it possible to find out the area's own characteristics and issues difficult to obtain through the structured data. Besides, this study is meaningful because the features of original data were grasped through the comparison of the unstructured data resources different from each other by analysis results. Regarding this point, it will be possible to apply more flexibly in selecting unstructured data which data is more suitable for the purpose, through original data feature and area characteristic analysis results explained in this study.