DOI QR코드

DOI QR Code

ELMo 임베딩 기반 문장 중요도를 고려한 중심 문장 추출 방법

Method of Extracting the Topic Sentence Considering Sentence Importance based on ELMo Embedding

  • 김은희 (조선대학교 컴퓨터공학과 대학원) ;
  • 임명진 (조선대학교 컴퓨터공학과 대학원) ;
  • 신주현 (조선대학교 신산업융합학부)
  • 투고 : 2021.02.26
  • 심사 : 2021.03.15
  • 발행 : 2021.03.31

초록

본 연구는 뉴스 기사에서 기사문을 구성하는 문장별 중요도를 고려하여 요약문을 추출하는 방법에 관한 것으로 문장 중요도에 영향을 주는 특성으로 중심 문장(Topic Sentence)일 확률, 기사 제목 및 다른 문장과의 유사도, 문장 위치에 따른 가중치를 추출하여 문장 중요도를 계산하는 방법을 제안한다. 이때, 중심 문장(Topic Sentence)은 일반 문장과는 구별되는 특징을 가질 것이라는 가설을 세우고, 딥러닝 기반 분류 모델을 학습시켜 입력 문장에 대한 중심 문장 확률값을 구한다. 또한 사전학습된 ELMo 언어 모델을 활용하여 문맥 정보를 반영한 문장 벡터값을 기준으로 문장간 유사도를 계산하여 문장 특성으로 추출한다. LSTM 및 BERT 모델의 중심 문장 분류성능은 정확도 93%, 재현율 96.22%, 정밀도 89.5%로 높은 분석 결과가 나왔으며, 이렇게 추출된 문장 특성을 결합하여 문장별 중요도를 계산한 결과, 기존 TextRank 알고리즘과 비교하여 중심 문장 추출 성능이 10% 정도 개선된 것을 확인할 수 있었다.

This study is about a method of extracting a summary from a news article in consideration of the importance of each sentence constituting the article. We propose a method of calculating sentence importance by extracting the probabilities of topic sentence, similarity with article title and other sentences, and sentence position as characteristics that affect sentence importance. At this time, a hypothesis is established that the Topic Sentence will have a characteristic distinct from the general sentence, and a deep learning-based classification model is trained to obtain a topic sentence probability value for the input sentence. Also, using the pre-learned ELMo language model, the similarity between sentences is calculated based on the sentence vector value reflecting the context information and extracted as sentence characteristics. The topic sentence classification performance of the LSTM and BERT models was 93% accurate, 96.22% recall, and 89.5% precision, resulting in high analysis results. As a result of calculating the importance of each sentence by combining the extracted sentence characteristics, it was confirmed that the performance of extracting the topic sentence was improved by about 10% compared to the existing TextRank algorithm.

키워드

참고문헌

  1. 네이버 고객센터(2018), https://m.help.naver.com/support/contents/contentsView.help?contentsNo=8126 (accessed Oct., 24, 2020).
  2. 차준석, 김정인, 김판구, "단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법," 스마트미디어저널, 제6권, 제1호, 22-29쪽, 2017년 3월
  3. 고영중, 박진우, 서정연, "문장 중요도를 이용한 자동 문서 범주화," 정보과학회논문지 : 소프트웨어 및 응용, 제29권, 제6호, 417-424쪽, 2002년 6월
  4. 김원우, "중요 문장 추출 및 추상 요약을 통한 cQA시스템 질문 요약 성능 개선", 광운대학교 석사학위 논문, 2019년 2월
  5. 김희찬, "의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약", 숭실대학교 석사학위 논문, 2015년 2월
  6. 김지희. "중심내용 찾기 활동을 통한 설명문 읽기의 효과 연구", 한국교원대학교 석사학위 논문, 2011년 2월
  7. 이명호, 임명진, 신주현, "단어와 문장의 의미를 고려한 비속어 판별 방법," 스마트미디어저널, 제9권 제3호, 98-106쪽, 2020년 09월 https://doi.org/10.30693/SMJ.2020.9.3.98
  8. 박서희, "BERT Transfer Learning을 활용한 스토리 텍스트 감정 인식", 성균관대학교 석사학위 논문, 2020년 8월
  9. Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.
  10. 박찬민, 박영준, 고영중, 서정연, "한국어 ELMo 임베딩을 이용한 의미역 결정," 한국정보과학회 학술발표논문집, 608-610쪽, 2019년 06월
  11. 홍승연, 나승훈, 신종훈, 김영길, "BERT와 ELMo 문맥화 단어 임베딩을 이용한 한국어 의존 파싱," 한국정보과학회 학술발표논문집, 491-493쪽, 2019년 06월
  12. 이종권, "문장임베딩과 딥러닝기법을 활용한 관세품목분류문서의 자동 HS분류 연구", 한밭대학교 석사학위 논문, 2020년 2월
  13. Page L., Brin S., Motwani R., & Winogra ,T., "The PageRank citation ranking : Bringing order to the web", 2009.
  14. 홍진표, 차정원, "TextRank 알고리즘을 이용한 한국어 중요 문장 추출," 한국정보과학회 학술발표논문집, 제36권, 제1C호, 311-314쪽, 2009년 06월
  15. 정풀잎, 안현철, "문장 위치를 고려한 고객 리뷰 감성 분석 모형," 인터넷전자상거래연구, 제19권, 제1호, 167-186쪽, 2019년 02월
  16. 임명진, 박원호, 신주현, "Word2Vec과 LSTM을 활용한 이별 가사 감정 분류," 스마트미디어저널, 제9권 제3호, 90-106쪽, 2020년 09월 https://doi.org/10.30693/SMJ.2020.9.3.90