DOI QR코드

DOI QR Code

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가

Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System

  • 최윤수 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 이원구 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 이민호 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 최동훈 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 윤화묵 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 송사광 (한국과학기술정보연구원 소프트웨어 연구실) ;
  • 정한민 (한국과학기술정보연구원 소프트웨어 연구실)
  • 투고 : 2012.09.07
  • 심사 : 2012.10.18
  • 발행 : 2012.10.28

초록

과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

참고문헌

  1. F. Smadja, K. R. McKeown, and V. Hatzivassiloglou, "Translating collocations for bilingual lexicons: A statistical approach," Computational Linguistics, Vol.22, No.1, pp.1-38, 1996.
  2. K. Frantzi, S. Ananiadou, and H. Mima, "Automatic recognition of multi-word terms: the C-value/NC-value method," International Journal on Digital Libraries, Vol.3, No.2, pp.115-130, 2000. https://doi.org/10.1007/s007999900023
  3. S. K. Song, Y. S. Choi, H. W. Chun, C. H. Jeong, S. P. CHoi, and W. K. Sung, "Multi-words Terminology Recognition Using Web Search," Communications in Computer and Information Science, Vol.264, No.1, pp.233-238, 2011. https://doi.org/10.1007/978-3-642-27210-3_29
  4. 최성필, 송사광, 정한민, "기술 문헌 분석 테스트 베드 툴킷 개발", 한국콘텐츠학회논문지, 제12권, 제8호, pp.13-19, 2012.
  5. 정창후, 최성필, 윤화묵, 최윤수, "그리드 기반의 고성능 과학기술지식처리 프레임워크 개발", 한국콘텐츠학회논문지, 제9권, 제12호, pp.877-885, 2009.
  6. B. Daille, E. Gaussier, and J. Lange, "Towards Automatic Extraction of Monolingual and Bilingual Terminology," COLING-94, 1994.
  7. J. S. Justeson and S. M. Katz, "Technical terminology : some lingustic propertis and an algorithm for identification in text," Natural Language Engineering, Vol.1, No.1, pp.9-27, 1995.
  8. K. W. Church and P. Hanks, "Word association norms, mutual information, and lexicography," Computational Linguistics, Vol.16, No.1, pp.22-29, 1990.
  9. R. Cilibrasi and P. Vitanyi, "The Google Similarity Distance," IEEE Trans. Knowledge and Data Engineering, Vol.19, No.3, pp.370-383, 2007. https://doi.org/10.1109/TKDE.2007.48
  10. S. Ghemawat, H. Gobioff, and S. Leungm, "The Google File System," In Proc. of ACM Symposium on Operating Systems Principles, pp.20-43, 2003.
  11. W. Tom, and C. Doug, Hadoop:The Definitive Guide, O'REILLY, 2009.