Development of Tagging Dataset for Named Entity Recognition in Security

정보보안 분야의 위협정보 개체명 인식 시스템 개발을 위한 데이터셋 구축

  • Kim, GyeongMin (Dept. of Computer Science and Engineering, Korea University) ;
  • Hur, YunA (Dept. of Computer Science and Engineering, Korea University) ;
  • Kim, Kuekyeng (Dept. of Computer Science and Engineering, Korea University) ;
  • Lim, HeuiSeok (Dept. of Computer Science and Engineering, Korea University)
  • 김경민 (고려대학교 컴퓨터학과) ;
  • 허윤아 (고려대학교 컴퓨터학과) ;
  • 김규경 (고려대학교 컴퓨터학과) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2018.10.12

Abstract

개체명 인식(Named Entity Recognition)은 주로 인명(PS), 지명(LC), 기관명(OG) 등의 개체를 인식하기 위한 방식으로 많이 사용되어왔다. 그 이유는 해당 개체들이 데이터에서 중요한 의미를 가진 키워드이기 때문이다. 그러나 다른 도메인이 달라진다면 그동안 사용된 개체보다 더욱 중요한 의미를 갖는 개체가 존재할 수 있다. 특히 정보보안 분야에서는 악의적으로 사용되는 위협정보가 문서 내에서 중요한 의미를 갖는다. 보안 문서는 해시값, 악성코드명, IP, 도메인/URL 등 위협정보에 중요한 단서가 될 수 있는 다양한 정보를 담고 있다. 본 논문에서는 정보보안 분야의 위협정보를 탐지할 수 있는 개체명 시스템 개발을 위해 4개의 클래스와 20가지 속성으로 정의한 구축 방식을 구축하고 그 구축 방식에 대해 제안한다.

Acknowledgement

Grant : 디지털콘텐츠 In-House R&D

Supported by : 정보통신기술진흥센터