DOI QR코드

DOI QR Code

Extracting Significant Information from Social Text using Machine Learning

기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법

  • Kim, So-Hyeon (School of Electrical and Computer Engineering, University of Seoul) ;
  • Kim, Han-joon (School of Electrical and Computer Engineering, University of Seoul)
  • 김소현 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 김한준 (서울시립대학교 전자전기컴퓨터공학부)
  • Published : 2016.10.27

Abstract

빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.

Keywords

Acknowledgement

Supported by : 국토교통부