DOI QR코드

DOI QR Code

Automatic Determination of Usenet News Groups from User Profile

사용자 프로파일에 기초한 유즈넷 뉴스그룹 자동 결정 방법

  • 김종완 (대구대학교 컴퓨터ㆍIT공학부) ;
  • 조규철 (대구대학교 컴퓨터ㆍIT공학부) ;
  • 김희재 (대구대학교 컴퓨터ㆍIT공학부) ;
  • 김병만 (금오공과대학교 컴퓨터공학부)
  • Published : 2004.04.01

Abstract

It is important to retrieve exact information coinciding with user's need from lots of Usenet news and filter desired information quickly. Differently from email system, we must previously register our interesting news group if we want to get the news information. However, it is not easy for a novice to decide which news group is relevant to his or her interests. In this work, we present a service classifying user preferred news groups among various news groups by the use of Kohonen network. We first extract candidate terms from example documents and then choose a number of representative keywords to be used in Kohonen network from them through fuzzy inference. From the observation of training patterns, we could find the sparsity problem that lots of keywords in training patterns are empty. Thus, a new method to train neural network through reduction of unnecessary dimensions by the statistical coefficient of determination is proposed in this paper. Experimental results show that the proposed method is superior to the method using every dimension in terms of cluster overlap defined by using within cluster distance and between cluster distance.

많은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 하지만, 초보자인 경우는 어떤 뉴스그룹이 자신의 관심사와 관련이 있는지를 판단하기가 용이치 않다. 따라서, 본 연구에서는 다양한 뉴스그룹들 중에서 사용자의 취향과 유사한 뉴스그룹들을 코호넨 신경망을 이용하여 추천해주는 방법을 제공한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 하지만 신경망의 학습패턴을 관찰해 보면, 많은 부분이 비어있는 희소성 문제를 발견할 수 있다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터내 거리와 클러스터간 거리의 척도를 이용한 클러스터 중첩도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

Keywords

References

  1. Byeong Man Kim, Ju Youn Kim and Jongwan Kim, "Query Term Expansion and Reweighting using Term Co-Occurrence Similarity and Fuzzy Inference," Proc. of IFSA/NAFIPS, pp.715-720, 2001. https://doi.org/10.1109/NAFIPS.2001.944690
  2. G. Salton and M. McGill, Introduction to Modern Information Retrieval, New York, McGraw Hill, 1983.
  3. Tak W.Yan and Hector Garcia-Molina, “Distributed selective dissemination of information,” Proceedings of the Third International Conference on Parallel and Distributed Information Systems, pp.89-98, IEEE Computer Society, September 1994.
  4. Curt Stevens, “Automating the creation of information filters,” Communications of the ACM, Vol.35, No.12, pp.48, 1992. https://doi.org/10.1145/138859.138863
  5. Masahiro Morita and Toichi Shinoda, "Information filtering based on user behavior analysis and best match text retrieval," Proceedings of the Seventeenth Annual International ACM-SIGIR Conference, pp.272-281, Springer-Verlag, July 1994.
  6. Douglas B. Terry, “A tour through tapestry,” In Proceedings of the ACM Conference on Organizational Computing Systems(COOCS), pp.21-30, November 1993. https://doi.org/10.1145/168555.168558
  7. Paul Resnick, Neophytos Iacovou, etc., "GroupLens: An open architecture for collaborative filtering of netnews," Proceedings of the Conference on Computer Supported Cooperative Work, pp.175-186, ACM, October 1994.
  8. David D. Lewis, Robert E. Schapire and James P. Callan and Ron Papka, "Training algorithms for linear text classifiler", Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval, 1996.
  9. 김주연, 김병만, 박혁로, "용어 분포 유사도를 이용한 질의 용어 확장 및 가중치 재산정," 한국정보과학회논문지(B), Vol.27, No.1, pp.90-100, 2000
  10. 한국어 형태소 분석기와 한국어 분석 모듈 (HAM: Hangul Analysis Module), http://nlp.kookmin.ac.kr/.”
  11. C.C. Lee, "Fuzzy logic in control systems: Fuzzy logic controller-part I," IEEE Trans. Syst. Man, Cybern., Vol.20, No.2, pp.408-418, 1990.
  12. D.W. Aha, "Tolerating Noisy, Irrelevant and Novel Attributes in Instance-Based Learning Algorithms," International Journal of Man-Machine Studies, Vol.36, pp.267-287, 1992. https://doi.org/10.1016/0020-7373(92)90018-G
  13. Terry R. Payne and Peter Edwards, "Dimensionality Reduction through Sub-Space Mapping for Nearest Neighbor Algorithms," European Conference on Machine Learning, pp.331-343, 2000.
  14. 강현철, 한상태, 최종후, 김은석, 김미경, SAS Enterprise Miner 4.0을 이용한 데이터마이닝-방법론 및 활용, 자유아카데미, 2001.
  15. 박성현, “회귀분석”, 민영사, 1992.
  16. 김대수, 신경망 이론과 응용, 하이테크 정보, 1992.
  17. 진승훈, 김종완, 이승아, 김영순, 김병만, “코호넨 신경망을 사용한 유즈넷 뉴스 필터링 에이젼트 구현”, 한국산업정보학회논문지, Vol.7, No.5, pp.21-28, 2002.
  18. R.O. Duda and P.E. Hart, Pattern Classification and Scene Analysis, John Wiley and Sons, 1973.