DOI QR코드

DOI QR Code

Improving the Performance of Document Clustering with Distributional Similarities

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구

  • 이재윤 (경기대학교 인문대학 문헌정보학)
  • Published : 2007.12.31

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, secondorder distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌클러스터링실험에서는 최소스큐다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두번째 실험에서는 피어슨 상관계수를 이용하여1차 유사도 행렬로부터2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험결과는 2차 분포 유사도가 전반적으로더 좋은 문헌 클러스터링성능을 보이는 것으로 나타났다. 문헌클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Keywords

References

  1. 정영미. 2005. 정보검색연구. 서울: 구미무역(주) 출판부
  2. 정영미, 이재윤. 2001. 지식 분류의 자동화를 위한 클러스터링 모형 연구. 정보관리학회지, 18(2): 203-230
  3. Dagan, Ido, Lillian Lee, and Fernando Pereira. 1999'. Simialrity-based models of cooccurrence probabilities.' Machine Learning, 34(1-3): 43-69 https://doi.org/10.1023/A:1007537716579
  4. Griffith, A., L. A. Robinson, and P. Willett. 1984. ' Hierarchic agglomerative clustering methods for automatic document classification.' Journal of Documentation, 40(3): 175- 205 https://doi.org/10.1108/eb026764
  5. Griffiths, A., H. C. Luckhurst, and P. Willett. 1986. 'Using inter document similarity information in document retrieval systems.' Journal of the American Society for Information Science, 37(1):3-11 https://doi.org/10.1002/asi.4630370102
  6. Kullback, S., and R. A. Leibler. 1951'. On information and sufficiency.'Annals of Mathematical Statistics, 22(1): 79-86 https://doi.org/10.1214/aoms/1177729694
  7. Kullback, Solomon. 1968. Information Theory and Statistics, 2nd ed. New York: Dover Books
  8. Lee, Lillian. 1999. 'Measures of distributional similarity.' Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, 25-32
  9. Lee, Lillian. 2001'. On the effectiveness of the skew diverg ence for statistical language analysis.' Proceedings of the Eighth International Workshop on Artificial Intelligence and Statistics (AISTATS-2001), 65-72
  10. Lee, Lillian, and Fernando Pereira. 1999.' Distrbiutional similarity models: Clustering vs. nearest neighbors.'Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, 33-40
  11. Lin, Dekang. 1998'. Automati cretrieval and clustering of similar words,' Proceedings of the COLINGACL '98, 768-773
  12. Lin, Jianhua. 1991'. Divergence measuers based on the Shannon entropy.' IEEE Transactions on Information Theory, 37(1): 145-151 https://doi.org/10.1109/18.61115
  13. Pereira, Fernando, Naftali Tishby, and Lillain Lee. 1993'. Distrbiutional clustering of English words.' Proceedings of the 31st Annual Meeting of the ACL, 183-190
  14. Salton, Gerard, and Michael J. McGill. 1983. Introduction to Modern Information Retrieval. New York: McGraw Hill
  15. Theodoridis, S., and K. Koutroumbas. 2003. Pattern Recognition. 2nd ed. Oxford, UK:Elsever
  16. Weeds, J. E. 2003. Measures and Applications of Lexical Distributional Similarity. Ph. D. diss., University of Sussex
  17. White, H. D., and B. C. Griffith. 1981. Author cocitation: aliterature measure of intellectual structure.' Journal of the American Society for Information Science, 32: 163- 171 https://doi.org/10.1002/asi.4630320302

Cited by

  1. Intellectual structure of Korean theology 2000–2008: Presbyterian theological journals vol.39, pp.3, 2013, https://doi.org/10.1177/0165551512466972
  2. A Comparative Study on Clustering Methods for Grouping Related Tags vol.43, pp.3, 2009, https://doi.org/10.4275/KSLIS.2009.43.3.399