4차 산업 시대에 데이터의 중요성이 커지면서 데이터를 수집하는 크롤링 기술도 덩달아 발전하였다. 아직 데이터 수집에 대한 적절한 법, 규제가 없어 데이터를 수집하면서 발생하는 민감한 정보에 대한 침해사고나 과도한 트래픽에 의한 서버 장애 책임은 온전히 데이터 제공자의 몫이 되었다. 심지어 크롤링 트래픽이 정상 사용자의 트래픽보다 더 많은 트래픽이 발생하는 일도 생겼다. 본 논문에서는 민감한 정보를 로그인 후에 조회할 수 있는 정보인지 아닌지를 기준으로 판단했다. 즉, 민감 정보를 크롤링하는 도구를 제작하려면 로그인 구현 기능을 함께 개발해야 한다. 기존의 대응 방법들은 크롤링 방어를 위해 크롤링 행위를 분석했다면, 본 논문의 제안 기법은 기존 대응 방법과 다르게 크롤링 도구 제작에 어려움을 주는 기법을 적용하였다. 이 기법들은 제작에 필요한 투자 시간을 높였고 결국, 제작을 포기하게 하였다. 제안 기법 적용 후 약 30일 이후 1시간에 약 10,000,000건이던 트래픽이 약 3,500,000건으로 50% 이상 감소하는 효과를 얻었다.
In the Fourth Industrial Age, the growing importance of data has also led to advances in crawling technology for collecting data. Because there are no proper laws or regulations on data collection yet, the responsibility for server failure due to infringement of sensitive information or excessive traffic caused by data collection was entirely up to the data provider. There have even been cases where crawling traffic generates more traffic than normal user traffic. In this paper, we judged on whether sensitive information can be inquired after logging in or not. In other words, creating a tool to crawl sensitive information requires developing login implementation capabilities together. While the existing response methods analyzed the behavior of crawling for the defense of crawling, the proposed techniques in this paper applied techniques that made it difficult to produce crawling tools, unlike the existing response methods. As a result, it reduced efficiency compared to production investment time and eventually gave up production. After applying the proposed technique, crawling traffic decreased by more than 50% from about 10,000,000 per hour to 3,500,000 after about 30 days.