Abstract
Seasonal influenza epidemics cause 3 to 5 millions severe illness and 250,000 to 500,000 deaths worldwide each year. To prepare better controls on severe influenza epidemics, many studies have been proposed to achieve near real-time surveillance of the spread of influenza. Korea CDC publishes clinical data of influenza epidemics on a weekly basis typically with a 1-2-week reporting lag. To provide faster detection of epidemics, recently approaches using unofficial data such as news reports, social media, and search queries are suggested. Collection of such data is cheap in cost and is realized in near real-time. This research aims to develop regression models for early detecting the outbreak of the seasonal influenza epidemics in Korea with keyword query information provided from the Naver (Korean representative portal site) trend services for PC and mobile device. We selected 20 key words likely to have strong correlations with influenza-like illness (ILI) based on literature review and proposed a logistic regression model and a multiple regression model to predict the outbreak of ILI. With respect of model fitness, the multiple regression model shows better results than logistic regression model. Also we find that a mobile-based regression model is better than PC-based regression model in estimating ILI percentages.
계절적 유행성 독감은 매년 전 세계적으로 300만-500만 명이 감염되어 25만-50만 명이 사망에 이르는 무서운 질병이다. 유행성 독감에 대한 통제를 강화하기 위해 독감의 유행을 실시간으로 감시하기 위한 연구들이 제안되고 있다. 우리나라의 질병관리본부는(CDC)는 인플루엔자에 대한 임상 자료를 1주 단위로 발표하고 있으며 질병의 유행과 1-2주 정도의 보고 시차가 존재한다. 조기에 독감의 유행을 감지하기 위해 비임상적 자료(뉴스 리포트, 소셜 미디어)의 검색 정보를 활용하여 유행성 독감 발생을 효과적으로 대비하기 위한 연구들이 최근 이루어지고 있다. 비임상적 자료의 수집은 적은 비용으로 거의 실시간으로 이루어질 수 있는 이점이 있다. 본 연구는 네이버 검색엔진이 제공하는 PC와 모바일 키워드 정보를 활용하여 우리나라의 유행성 독감 활동을 감지하는 회귀모형을 개발하고자 한다. 이를 위해 문헌연구를 통하여 인플루엔자 의사분율(ILI)과 높은 상관성을 가질 것으로 예상되는 키워드를 20개 선정하고 키워드와 ILI와의 관계를 로지스틱 회귀모형과 다중회귀모형으로 가정하고 ILI를 예측하였다. 모형적합성 측면에서 다중회귀모형이 로지스틱모형보다 우수하였으며 모바일-기반 회귀모형이 PC-기반 회귀모형보다 ILI 퍼센티지를 추정하는데 우월한 결과를 보이고 있다.