A Study of High Speed Retrieval Algorithm of Long Component Keyword

복합키워드의 고속검색 알고리즘에 관한 연구

  • Published : 2004.12.01

Abstract

Effective keyword extraction is important in the information search system and there are several ways to select proper keyword in many keywords. Among them, DER Structure for AC Algorithm to search single keyword, can search multiple keywords but it has time complexity problem. In this paper, we developed a algorithm, "EDER structure" by expanding standalone search table based on DER structure search method to improve time complexity. We tested the algorithm using 500 text files and found that EDER structure is more efficient than DER structure for AC for keyword posting result and time complexity that 0.2 second for EDER and 0.6 second for DER structure,structure,

효율적인 키워드 추출은 정보검색 시스템에서 중요하지만 많은 키워드 중 적당한 키워드를 결정하기 위한 방법들은 여러 가지가 있다. 그중 단일 키워드만을 검색하는 AC알고리즘을 해결하기 위한 DER구조는 복합키워드 검색이 가능하나 많은 검색시간이 걸린다는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 DER구조의 검색방법을 기반으로 한 독립적인 검색테이블을 확장하여 EDER 구조라는 알고리즘을 구축하였다. 500개의 텍스트 파일을 실험한 결과 키워드의 포스팅 결과가 AC의 DER구조보다 EDER구조가 작았으며, 검색시간 또한 K5에서 DER구조가 0.6초, EDER구조가 0.2초로 더 빠른 검색을 보며주고 있어 제안 방법이 효과적임을 알 수 있었다.

Keywords

References

  1. Fuketa, M., Mizobuchi, S., Hayashi, Y. and Aoe, J. 'A Fast Method of Determining Weighted Compound Keywords from Text Databases', Information Processing & Management, Vo1.34, No.4, pp.431-442, 1998 https://doi.org/10.1016/S0306-4573(98)00012-0
  2. Kimoto, H. 'Automatic indexing and evaluation of keywords for Japanese newspapers', IEICE Trans. J74-D-I, No.8, pp.556-566, 1991
  3. Makoto Okada, Kazuaki Ando, Kazuhro Morita, Jun-ichi Aoe, 'An Efficient Determination of Keywords for Compound Words', Proceedings of 18th ICCPOL, Vol 1, pp317-320, March 1999
  4. Kazuaki Ando, Toshiharu Kinoshita, Masami Shishibori, Jun-ichi Aoe, 'An improvement of the Aho-Corasick machine', International Journal of Information Sciences, Vol 3, pp139-151, 1998
  5. Kazuaki Ando, Masao Fuketa, Masami Shishibori, Jun-ichi Aoe, 'Dictionary Structure for Morphological Analysis of Oriental Languages', Proceedings of 18th ICCPOL, Vol 1, pp533-538, March 1999
  6. A. V. Aho, M. J. Corasick, 'Efficient string matching: an aid to bibliographic search', Comm. ACM, Vol.l8, No.6, pp.333-340, 1975 https://doi.org/10.1145/360825.360855
  7. 정민수, '코퍼스로부터 구문분석을 위한 사전구성', 군산대학교 컴퓨터과학과 석사학위논문, 1999