DOI QR코드

DOI QR Code

An Automatic Summarization of Call-For-Paper Documents Using a 2-Phase hidden Markov Model

2단계 은닉 마코프 모델을 이용한 논문 모집 공고의 자동 요약

  • Published : 2008.04.25

Abstract

This paper proposes a system which extracts necessary information from call-for-paper (CFP) documents using a hidden Markov model (HMM). Even though a CFP does not follow a strict form, there is, in general, a relatively-fixed sequence of information within most CFPs. Therefore, a hiden Markov model is adopted to analyze CFPs which has an advantage of processing consecutive data. However, when CFPs are intuitively modeled with a hidden Markov model, a problem arises that the boundaries of the information are not recognized accurately. In order to solve this problem, this paper proposes a two-phrase hidden Markov model. In the first step, the P-HMM (Phrase hidden Markov model) which models a document with phrases recognizes CFP documents locally. Then, the D-HMM (Document hidden Markov model) grasps the overall structure and information flow of the document. The experiments over 400 CFP documents grathered on Web result in 0.49 of F-score. This performance implies 0.15 of F-measure improvement over the HMM which is intuitively modeled.

본 논문에서는 은닉 마코프 모델을 이용하여 논문 모집 공고에서 정보를 추출하는 시스템을 제안한다. 논문 모집 공고는 완전히 정형화된 형식을 가지지는 않지만, 내용의 출현 순서에 따른 흐름이 어느 정도 존재한다. 따라서 순차적인 데이터를 해석하는데 강점을 지닌 은닉 마코프 모델을 논문 모집 공고를 분석하는데 사용한다. 하지만, 논문 모집 공고를 은닉 마코프 모델로 직관적으로 모델링하면 정보 경계가 정확히 인식되지 않는 문제가 발생한다. 본 논문에서는 이 문제를 해결하기 위해 2-단계의 은닉 마코프 모델을 사용한다. 즉, 첫 번째 단계에서, 문서를 구로 모델링한 P-HMM(Phrase hidden Markov model)이 지역적으로 문서를 인식한다. 그리고 두 번째 단계에서 D-HMM(Document hidden Markov model)은 문서가 가진 전체적인 구조와 정보의 흐름을 파악한다. 웹에서 수집된 400개의 논문 모집 공고에 대한 실험 결과, F-measure 성능이 0.49를 보인다. 이는 직관적인 은닉 마코프 모델보다 F-measure로 0.15 정도 향상된 결과이다.

Keywords

References

  1. P. Maes, "Agents that Reduce Work and Information Overloading," Communications of the ACM, Vol. 37, No. 7. pp. 31-40, 1994
  2. A. Viterbi, "Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm," IEEE Transactions on Information Theory, Vol. 13, No. 2, pp. 260-267, 1967 https://doi.org/10.1109/TIT.1967.1054010
  3. E. Riloff, "Information Extraction as a Stepping Stone Toward Story Understanding," Understanding Language Understanding: Computational Models of Reading, The MIT Press, 1999
  4. D. Miller, T. Leek, and R. Schwartz, "A Hidden Markov Model Information Retrieval System," In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 214-221, 1999
  5. C. Manning and H. Schuetze, Foundations of Statistical Natural Language Processing, The MIT Press, 1999
  6. K. Seymore, A. McCallum, and R. Rosenfeld, "Learning Hidden Markov Model Structure for Information Extraction," In Proceedings of AAAI '99 Workshop on Machine Learning for Information Extraction, pp. 37-42, 1999
  7. N. Chinchor, "Overview of MUC-7/MET-2," In Proceedings of the 7th Message Understanding Conference, 1998
  8. N. Ireson, F. Ciravegna, M. Claiff, D. Freitag, N. Kushmerick, and A. Lavelli, "Evaluating Machine Learning for Information Extraction," In Proceedings of the 22nd International Conference on Machine Learning, pp. 345-352, 2005
  9. A. Stolcke, Bayesian Learning of Probabilistic Language Models, Ph.D Thesis, University of California, Berkeley, 1994
  10. C. Giuliano, A. Gliozzo, A. Lavelli, and L. Romano, "Filtering Uninformative Words to Speed up IE: ITC-irst Participation in the PASCAL Challenge," PASCAL Challenge, 2005