Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping

패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출

  • Jeong, Chang-Hoo (Korea Institute of Science and Technology Information) ;
  • Chun, Hong-Woo (Korea Institute of Science and Technology Information) ;
  • Choi, Yun-Soo (Korea Institute of Science and Technology Information) ;
  • Song, Sa-kwang (Korea Institute of Science and Technology Information) ;
  • Choi, Sung-Pil (Korea Institute of Science and Technology Information) ;
  • Cho, Minhee (Korea Institute of Science and Technology Information) ;
  • Jung, Hanmin (Korea Institute of Science and Technology Information)
  • Published : 2012.05.25

Abstract

문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

Keywords