With the rapid development of the Internet and information technology, a vast amount of data has been generated. This has also led to a significant increase in the number of information people are exposed to daily. making it particularly difficult to find valuable information in the vast amount of data when users are unable to specify their needs. It is in this context that the recommendation system was born. It is based on the user's buying habits and determines the user's interests. By uncovering the user's behavior, relevant information or products are recommended to the user to meet their individual needs, helping them to find the information or products they need in the thousands of data available. The film industry, one of the industries driven by the development of the Internet, is also widely followed. So to accurately recommend people's favorite movie data, this thesis implements a small recommendation system based on SPARK, using the movies lens public dataset. Afterward, by reading large number of essential papers a similarity calculation method for penalizing popular movies was proposed, this formula was added the recommendation of popular film to cold-start users to improve the cold-start problem. After using the cold start improvement method, the maximum precision increased from 0.245 to 0.269 and the maximum recall risen from 0.30 to 0.336.
인터넷과 정보교환 기술의 급속한 발전 속도로 많은 양의 데이터가 생성되었다. 이로 인해 사람들이 매일 접근될 정보의 양이 크게 증가했다. 따라서 사용자가 자신의 요구를 명확히 할 수 없는 경우에, 거대한 양의 데이터에서 가치 있는 정보를 찾기가 어려워진다. 이 경우 추천 시스템이 탄생했다. 추천 시스템은 사용자의 구매 습관을 기반으로 사용자의 취미를 확정하는 것이다. 사용자 행동을 발굴하고, 적절한 정보 혹은 제품을 사용자에게 추천하고, 사용자 개개인의 요구를 충족하고, 많은 데이터에서 필요한 제품을 찾도록 도와준다. 인터넷의 발전을 이끄는 산업 중 하나인 영화도 많은 관심을 받고 있다. 따라서 사용자가 좋아하는 영화의 데이터를 정확하게 추천하기 위해 이 논문에서는 Spark을 기반으로 movie lens 공공 데이터세트를 이용하여 소규모 협업 필터링 추천 시스템을 구현했다. 향후 기초 논문을 대량으로 읽고 논문에 따라 인기 영화에 처벌을 하는 유사성 계산 공식을 제안하고, 이 공식을 기반으로 인기 영화 추천이 추가되어 콜드 스타트 문제를 개선했다. 콜드 스타트 개선 방법을 사용한 후 최고 precision가 0.245에서 0.269로 증가했고 최고 recall이 0.30에서 0.336으로 증가했다.