DOI QR코드

DOI QR Code

A method of web Document Encoding Automatic Recognition for SNS Text Mining

SNS 텍스트 마이닝을 위한 웹문서 인코딩 자동 인식 기술 방안

  • Published : 2015.10.28

Abstract

사용자는 자신의 주변상황에 대한 정보를 수집 및 공유하기 위하여 SNS, 포탈사이트 및 커뮤니티를 사용한다. 본 논문에서는 사용자의 특성을 고려한 지역정보 수집 아이디어와 방법론을 제시한다. 또한 각각의 웹 시스템의 데이터를 수집하여, 광범위한 지역정보를 마이닝을 수행하고 가공해내는 시스템을 제안한다. 이를 위해 해결해야하는 이슈는 다음과 같다. 각 웹시스템의 문서들은 운영 체제에 따라 인코딩이 달리 사용되는데, 흔히 발생되는 오류 중 하나인 문자깨짐 현상이 그 예이다. 해결방법으로써 문서가 작성된 운영체제의 인코딩정보를 획득해야하며, 이 정보는 서버에서 제공하는 헤더정보에 명시되었거나 문서내에 내장되어 있다. 하지만 일부 웹사이트는 인코딩 정보를 제공하지 않으며, 국가별 인코딩이 다르기 때문에 이를 알기 쉽지않다. 그리하여 본 논문에서 제안하는 방법론은 텍스트 마이닝에 앞서 웹서버에서 제공하는 웹페이지를 읽어들여 인코딩정보를 획득하고, 문자의 깨짐없이 표시할 수 있도록 시스템을 구축하기 위해 Response Header, HTML의 meta tag 및 읽어드린 문서의 BOM(Byte Order Mark) 정보 및 인코딩 패턴을 통해 인식하도록 하여 글자 깨짐을 완하하도록 시스템을 설계하였다.

Keywords