DOI QR코드

DOI QR Code

Comparative Study of Various Machine-learning Features for Tweets Sentiment Classification

트윗 감정 분류를 위한 다양한 기계학습 자질에 대한 비교 연구

  • 홍초희 (강원대학교 컴퓨터정보통신공학전공) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학전공)
  • Received : 2012.09.26
  • Accepted : 2012.11.02
  • Published : 2012.12.28

Abstract

Various studies on sentiment classification of documents have been performed. Recently, they have been applied to twitter sentiment classification. However, they did not show good performances because they did not consider the characteristics of tweets such as tweet structure, emoticons, spelling errors, and newly-coined words. In this paper, we perform experiments on various input features (emoticon polarity, retweet polarity, author polarity, and replacement words) which affect twitter sentiment classification model based on machine-learning techniques. In the experiments with a sentiment classification model based on a support vector machine, we found that the emoticon polarity features and the author polarity features can contribute to improve the performance of a twitter sentiment classification model. Then, we found that the retweet polarity features and the replacement words features do not affect the performance of a twitter sentiment classification model contrary to our expectations.

Keywords

Sentiment Classification;Twitter;Tweets;Machine-learning Feature

Acknowledgement

Supported by : 한국연구재단

References

  1. L. Barbosa and J. Feng, "Robust sentiment detection on Twitter from biased and noisy data," In Proceedings of the 23rd International Confere-nce on Computational Linguistics, pp.36-44, 2010.
  2. http://www.bloter.net/archives/74190
  3. 홍초희, 김학수, "트윗 분류를 위한 효과적인 자질 추출", 한국정보과학회 학술발표논문집, 제38권, 제1호, pp.229-232, 2011.
  4. 신준수, 김학수, "강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법", 정보과학회논문지 소프트웨어 및 응용, 제37권, 제12호, pp.946-950, 2010.
  5. 황재원, 고영중, "감정 분류를 위한 한국어 감정 자질 추출 기법과 감정 자질의 유용성 평가", 인지과학, 제19권, 제4호, pp.499-517, 2008.
  6. H. Cui, V. Mittal, and M. Datar, "Comparative Expe- riments on Sentiment Classification for Online Product Reviews," In Proceedings of the 21st National Conference on Artificial Intelligence, Vol.2, pp.1265-1270, 2006.
  7. L. Jiang, M. Yu, M. Zhou, X. Liu, T. Zhao, "Target-dependent Twitter Sentiment Classification," In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp.151-160, 2011.
  8. W. Wu, B. Zhang, M. Ostendorf, "Automatic Generation of Personalized Annotation Tags for Twitter Users," In Proceedings of Human Language Technologies 2010, pp.689-692, 2010.
  9. A. Go, R. Bhayani, L. Huang, Twitter Sentiment Classification using Distant Supervision, CS224N Project Report Stanford, 2011.
  10. 김동균, 허지용, 조지훈, 박수영, 김용혁, "기계학습 기반의 감정 트위터 봇", 한국정보과학회 학술발표 논문집, 제38(2B)권, pp.379-382, 2011
  11. 홍초희, 김학수, "신뢰도 높은 트윗 감정 분류를 위한 하이브리드 자질 추출 기법", 강원대학교 정보통신논문지, 제16권, pp.38-41, 2012
  12. 박수영, 하용호, 김용혁, "트윗터 정보 검색 분야의 최근 연구들", 한국정보과학회 2010 한국컴퓨터종합학술대회 논문집, 제37권, 제2(C)호, pp.25-29, 2010.
  13. 최맹식, 김학수, "기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅", 정보처리학회논문지, 제18-B권, 제1호, pp.45-50, 2011. https://doi.org/10.3745/KIPSTB.2011.18B.1.045
  14. 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한국어 형태소 분석", 한국정보과학회논문지 소프트웨어 및 응용, 제31권, 제1호, pp.89-99, 2004.
  15. Z. Xue, D. Yin, and B. D. Davison, "Mormalizaing MicroText," In Proceedings of AAAI-11 workshop on Analyzing Microtext, pp.74-79, 2011.
  16. B. Pang, L. Lee, and S. Vaithyanathan, "Thumbs up? Sentiment Classification Using Machine Learning Techniques," In Proceedings of the EMNLP, pp.79-86, 2002.

Cited by

  1. An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter vol.17, pp.2, 2014, https://doi.org/10.9717/kmms.2014.17.2.232