DOI QR코드

DOI QR Code

Word Embedding Analysis for Biomedical Articles

생의학 문헌에 대한 워드 임베딩 적용 및 분석

  • Choi, Yunsoo (Korea Institute of Science and Technology Information) ;
  • Jeon, Sunhee (Korea Institute of Science and Technology Information)
  • Published : 2016.04.29

Abstract

워드 임베딩(word embedding)은 정보검색이나 기계학습에서 단어를 표현하기 위하여 사용되던 기존의 one-hot 벡터 방식의 희소공간 및 단어들 간의 관계정보를 유지할 수 없는 문제를 해결하기 위한 방법이다. 워드 임베딩의 한 방법으로 word2vec은 최근 빠른 학습시간과 높은 효과를 얻을 수 있는 모델로 주목을 받고 있다. word2vec은 수행 시 주어지는 옵션인 벡터차원과 문맥크기에 의해 그 결과 품질이 상이하다. Mikolov는 구글 뉴스 문헌 집합에 대하여 word2vec을 실험하고, 적합한 옵션을 제시하였다. 본 논문에서는 구글 뉴스 문헌 같은 일반 문서가 아닌 생의학 분야에 특화된 문헌에 대하여 word2vec에 대한 다양한 옵션을 실험하고, 생의학 문헌에 적합한 최적의 조건을 분석한다.

Keywords