DOI QR코드

DOI QR Code

기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안

Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents

  • 한희정 (전북대학교 문화융복합아카이빙 연구소) ;
  • 김태영 (전북대학교 일반대학원 기록관리학과) ;
  • 두효철 (전북대학교 일반대학원 기록관리학과) ;
  • 오효정 (전북대학교 기록관리학과, 문화융복합 아카이빙연구소)
  • 투고 : 2017.11.18
  • 심사 : 2017.12.12
  • 발행 : 2017.12.30

초록

기술문서는 지식정보사회에서 생성되는 중요 연구 성과물로, 이를 제대로 활용하기 위해서는 정보 요약 및 정보추출과 같은 개선된 정보 처리 방법을 토대로 기술문서 활용의 편의성을 높여줄 필요가 있다. 이에 본 연구는 기술문서의 핵심 정보를 추출하기 위한 방안으로, 기술문서의 구조와 정의문 패턴을 기반으로 전문용어 및 정의문을 자동 추출하고, 이를 기반으로 전문용어사전을 구축할 수 있는 시스템을 제안하였다. 나아가 전문용어사전을 지식메모리로서 보다 다양하게 활용할 수 있도록 전문용어사전에 기반한 개인화서비스 제공방안을 제안하였다. 이처럼 전문용어 및 정의문 자동추출을 기반으로 전문용어사전을 구축하게 되면 새롭게 등장하는 전문용어를 빠르게 수용할 수 있어 이용자들이 최신정보를 보다 손쉽게 찾을 수 있다. 더불어 개인화된 전문용어사전을 이용자에게 제공한다면 전문용어사전의 가치와 활용성, 검색의 효율성을 극대화할 수 있다.

Technical documents are important research outputs generated by knowledge and information society. In order to properly use the technical documents properly, it is necessary to utilize advanced information processing techniques, such as summarization and information extraction. In this paper, to extract core information, we automatically extracted the terminologies and their definition based on definitional sentences patterns and the structure of technical documents. Based on this, we proposed the system to build a specialized terminology dictionary. And further we suggested the personalized services so that users can utilize the terminology dictionary in various ways as an knowledge memory. The results of this study will allow users to find up-to-date information faster and easier. In addition, providing a personalized terminology dictionary to users can maximize the value, usability, and retrieval efficiency of the dictionary.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. 강현화 (2009). 전문용어 표준화 제도 장비를 위한 정책 연구. 서울: 국립국어원. (Kang, Hyeon-Hwa (2009). Policy study for standardization of terminology standardization system. National Institute of Korean Language. Seoul: National Institute of the Korean Language.)
  2. 김재호, 배선미, 신효식, 최기선 (2004). 의학 전문용어의 정의문 자동 추출. 한국정보과학회 학술발표논문집, 31(1B), 922-924. (Kim, Jae-Ho, Bae, Sun-Mee, Shin, Hyo-Shik, & Choi, Key-Sun (2004). Automatic extraction of medical term definition from texts. Proceedings of the Korea Information Science Society, 31(1B), 922-924.)
  3. 남길임 (2016). 과학텍스트 정의문의 유형분석. 한국어 의미학, 52, 111-138. https://doi.org/10.19033/sks.2016.06.52.111 (Nam, Kil-Im (2016). A study on types of defining sentences in science text. Korean Semantics, 52, 111-138. https://doi.org/10.19033/sks.2016.06.52.111)
  4. 미래창조과학부, 한국과학기술기획평가원 (2017). 2016 과학기술통계백서. 서울: 휴먼컬처아리랑. (Ministry of Science and ICT, & Future Planning & Korea Institute of S&T Evaluation and Planning (2017). 2016 White paper of science and technology statistics. Seoul: Human, Culture, Arirang.)
  5. 박정오, 황도삼 (2000). 전문용어 추출시스템. 한국정보과학회 학술발표논문집, 27(1B), 381-383. (Park, Jung-Oh, & Hwang, Do-Sam (2000). A terminology extraction system. Proceedings of the Korea Information Science Society, 27(1B), 381-383.)
  6. 신효식, 김재호, 이해윤, 최기선 (2002). 텍스트로부터 용어 정의문의 자동 추출 방법. 한국정보과학회 언어공학연구회 학술발표 논문집, 292-299. (Shin, Hyo-Shik, Kim, Jae-Ho, Lee, Hae-Yun, & Choi, Key-Sun (2002). A method for automatic extraction of term definition from text. Proceedings of the Korea Information Science Society Language Engineering Research Society, 292-299.)
  7. 오종훈, 김재호, 최기선 (2003). EM 알고리즘을 이용한 전문용어의 자동추출. 한국정보과학회 학술발표논문집, 30(2), 487-489. (Oh, Jong-Hoon, Kim, Jae-Ho, & Choi, Key-Sun (2003). Automatic term recognition through EM algorithm. Proceedings of the Korea Information Science Society, 30(2), 487-489.)
  8. 오종훈, 이경순, 최기선 (2002). 분야간 유사도와 통계기법을 이용한 전문용어의 자동추출. 정보과학회논문지, 29(4), 258-269. (Oh, Jong-Hoon, Lee, Kyung-Soon, & Choi, Key-Sun (2002). Automatic term recognition using domain similarity and statistical methods. Korea Information Science Society, 29(4), 258-269.)
  9. 오종훈, 최기선 (2004). 정보통합을 통한 생물/의학 분야 전문용어의 자동 추출. 한국정보과학회 학술발표논문집, 31(2), 775-777. (Oh, Jong-Hoon, & Choi, Key-Sun (2004). Recognizing biomedical terminologies through integration of heterogeneous information. Proceedings of the Korea Information Science Society, 31(2), 775-777.)
  10. 최선화 (2006). 사전 정의문의 구문특징패턴에 기반한 상위어 판별규칙 학습. 박사학위논문, 전남대학교 대학원, 전산학과. (Choi, Seon-Hwa (2006). Learning of hypernym identification rules based on syntactic patterns in definition sentences of dictionaries. Ph.D. dissertation, Graduate School of Chonnam)
  11. 한국과학기술정보연구원 (2014). 국가R&D 보고서원문 성과 활용 분석 및 경제적 기여도 분석 연구보고서. 서울: 한국과학기술정보연구원. (Korea Institute of Science and Technology Information (2014). Outcome measurement and degree of economic contribution for the national R&D reports. Seoul: Korea Institute of Science and Technology Information.)
  12. 한국학술단체총연합회 (2006). 전문용어정리방법론 개발 연구보고서. 서울: 한국학술단체총연합회. (Korean Association of Academic Societies (2006). Development of terminology methodology. Seoul: Korean Association of Academic Societies.)
  13. Flowerdew, J. (1992). Definitions in science lectures. Applied Linguistics, 13(2), 202-221. https://doi.org/10.1093/applin/13.2.202
  14. Trimble, L. (1985). English for science and technology: A discourse approach. Cambridge: Cambridge University Press.