DOI QR코드

DOI QR Code

Big Data Preprocessing for Predicting Box Office Success

영화 흥행 실적 예측을 위한 빅데이터 전처리

  • 전희국 (서울대학교 컴퓨터공학부) ;
  • 현근수 (서울대학교 컴퓨터공학부) ;
  • 임경빈 (서울대학교 컴퓨터공학부) ;
  • 이우현 (서울대학교 컴퓨터공학부) ;
  • 김형주 (서울대학교 컴퓨터공학부)
  • Received : 2014.07.29
  • Accepted : 2014.10.20
  • Published : 2014.12.15

Abstract

The Korean film market has rapidly achieved an international scale, and this has led to a need for decision-making based on analytical methods that are more precise and appropriate. In this modern era, a highly advanced information environment can provide an overwhelming amount of data that is generated in real time, and this data must be properly handled and analyzed in order to extract useful information. In particular, the preprocessing of large data, which is the most time-consuming step, should be done in a reasonable amount of time. In this paper, we investigated a big data preprocessing method for predicting movie box office success. We analyzed the movie data characteristics for specialized preprocessing methods, and used the Hadoop MapReduce framework. The experimental results showed that the preprocessing methods using big data techniques are more effective than existing methods.

국제적 수준으로 성장한 한국의 영화 시장 환경은 더욱 타당한 자료 분석에 근거한 의사 결정 수단을 필요로 하게 되었다. 또한 발전된 정보 환경으로 인해 실시간으로 생성되는 대규모 데이터를 신속히 처리하고 분석하여 보다 정밀한 결과를 예측할 수 있어야 한다. 특히 전처리 작업은 정보 분석 과정 중 가장 많은 시간이 소요 되므로 대규모 데이터 기반 분석 환경에서도 합리적인 시간 내에 처리할 수 있어야 한다. 본 논문에서는 영화 흥행 예측을 위한 대용량 데이터 전처리 방법을 연구하였다. 영화 흥행 데이터의 특성을 분석해 전처리의 각 유형별 처리 방법을 설정했으며 하둡 기반 맵리듀스 프레임워크를 사용하는 방법을 사용하였다. 실험 결과 빅데이터 기법을 사용한 전처리가 기존의 방법보다 더 좋은 수행 결과를 보이는 것을 확인하였다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. Motion pictiure association of america, "Theatrical Market Statistics," 2013.
  2. UNESCO Institute for Statistics, "Emerging markets and the digitalization of the film industry," UIS Information Paper No.14, 2013.
  3. Korean Film Council, "2013 Korean Film Industry Report," 2014.
  4. E. M. Kim, "The Determinants of Motion Picture Box Office Performance: Evidence from Movie Exhibited in Korea," Korean Society for Journalism & Communication Studies, Vol. 47, No. 2, pp. 190-220, 2003.
  5. H. Y. Jeong, H. J. Yang, "Predicting Financial Success of a Movie Using Multiple Regression Analysis," Korea Society of Computer & Information Summer Conference, Vol. 21, No. 2, pp. 275-278, 2013.
  6. S. Y. Kim, "A Comparison Study of the Determinants of Performance of Motion Pictures: Art Film vs. Commercial Film," The Korea Contents Association, Vol. 10, No. 2, pp. 381-393, 2010. https://doi.org/10.5392/JKCA.2010.10.2.381
  7. S. J. Lee, T. R. Jeon, G. D. Back and S. S. Kim, "A Movie Rating Prediction System Based on Personal Propensity Analysis," Proc. of kIIS Fall Conference 2008, Vol. 18, No. 2, pp. 203-206, 2008.
  8. W. Zhang, Available from: http://www.cs.wustl.edu /-zhang/teaching/cs514/Spring11/Data-prep.pdf [Accessed: 17 July 2014]
  9. S. Zhang, C. Zhang, and Q. Yang, "Data preparation for data mining," Applied Artificial Intelligence, Vol. 17, No. 5-6, pp. 375-381, 2003. https://doi.org/10.1080/713827180
  10. D. Tanasa and B. Trousse, "Advanced data preprocessing for intersites web usage mining," Intelligent Systems, IEEE, Vol. 19, No. 2, pp. 59-65, 2004. https://doi.org/10.1109/MIS.2004.1274912
  11. W. S. Hyun, "Performance Improvement of Data Preprocessing for Intersite Web Usage Mining," The Korean Institute of Information Scientists and Engineers Autumn Conference, Vol. 33, No. 2B, pp. 357-361, 2006.
  12. S. B. Kotsiantis, D. Kanellopoulos, and P. E. Pintelas, "Data preprocessing for supervised leaning," International Journal of Computer Science, Vol. 1, No. 2, pp. 111-117, 2006.

Cited by

  1. A SNS Data-driven Comparative Analysis on Changes of Attitudes toward Artificial Intelligence vol.14, pp.12, 2016, https://doi.org/10.14400/JDC.2016.14.12.173