Improvement of recommendation system using attribute-based opinion mining of online customer reviews

Misun Lee;Hyunchul Ahn;

doi:10.9708/jksci.2023.28.12.259

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

제28권12호
/
Pages.259-266
/
2023
/
1598-849X(pISSN)
/
2383-9945(eISSN)

한국컴퓨터정보학회 (Korean Society of Computer Information)

DOI QR Code

Improvement of recommendation system using attribute-based opinion mining of online customer reviews

Misun Lee (Department of AI Convergence Engineering, Sejong University) ;
Hyunchul Ahn (Graduate School of Business IT, Kookmin University)

투고 : 2023.11.07
심사 : 2023.11.28
발행 : 2023.12.30

https://doi.org/10.9708/jksci.2023.28.12.259 인용 PDF HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 속성기반 오피니언 마이닝(ABOM)을 적용한 협업 필터링의 정확도 성능을 개선할 수 있는 알고리즘을 제안한다. 실험을 위해 국내 스마트폰 사용자의 스마트폰 앱에 대한 총 1,227건의 온라인 소비자 리뷰 데이터가 분석에 사용되었다. KKMA(꼬꼬마)분석기를 이용하여 형태소 분석 및 KOSAC를 사용하여 감성어 분석 후 LDA 토픽 모델링을 사용하여 속성 추출한 가중치 값을 부여한 리뷰별로 토픽 모델링 결과를 이용하여 협업필터링의 평점과 감성스코어의 평점을 합산한 평균값 정확도 오차를 계산한 통계모형 성능 평가인 MAE, MAPE, RMSE를 사용하였다. 실험을 통해 추천 알고리즘 중 전통적인 협업필터링과 LDA 속성 추출과 감성분석을 결합한 속성기반 오피니언 마이닝(Aspect-Based Opinion Mining, ABOM) 기법을 결합하여 온라인 고객의 앱 평점(APP_Score) 대한 정확도를 예측하였다. 분석 결과 전통적인 협업필터링을 구현한 평점의 정확도 보다 속성기반 오피니언 마이닝 CF를 적용한 평점의 예측 정확도가 더 우수한 것으로 나타났다.

In this paper, we propose an algorithm that can improve the accuracy performance of collaborative filtering using attribute-based opinion mining (ABOM). For the experiment, a total of 1,227 online consumer review data about smartphone apps from domestic smartphone users were used for analysis. After morpheme analysis using the KKMA (Kkokkoma) analyzer and emotional word analysis using KOSAC, attribute extraction is performed using LDA topic modeling, and the topic modeling results for each weighted review are used to add up the ratings of collaborative filtering and the sentiment score. MAE, MAPE, and RMSE, which are statistical model performance evaluations that calculate the average accuracy error, were used. Through experiments, we predicted the accuracy of online customers' app ratings (APP_Score) by combining traditional collaborative filtering among the recommendation algorithms and the attribute-based opinion mining (ABOM) technique, which combines LDA attribute extraction and sentiment analysis. As a result of the analysis, it was found that the prediction accuracy of ratings using attribute-based opinion mining CF was better than that of ratings implementing traditional collaborative filtering.

키워드

I. Introduction

IT 기술의 발달로 인해 사람들은 정보를 쉽게 얻을 수 있는 온라인 플랫폼인 전자상거래 사이트나 블로그, SNS 통해 상품을 판매하거나 구매한다. 소비자는 상품 구매 전, 온라인 플랫폼을 이용하여 상품의 만족도를 파악하고 리뷰확인을 통해 정보를 얻을 수 있으며, 소비자에게 적합하고 알맞은 상품을 찾을 수 있다[1].

쇼핑몰과 같은 상거래 플랫폼에서도 상품에 대한 고객들의 의견을 공유할 수 있도록 하는 사용자 리뷰가 크게 활성화되고 있는데, 이와 같은 리뷰에는 해당 상품에 대해 고객이 갖고 있는 선호에 대한 보다 상세하고, 신뢰할 수 있는 정보를 담고 있어 추천 시스템에서 활용하기에 매우 유용할 수 있다[2]. 또한 고객 리뷰를 효과적이고 지능적으로 분석하는 방법에 대한 다양한 연구가 활발하게 진행되고 있는데[3][4], 그 중에서 최근 감성분석(sentiment analysis) 또는 오피니언 마이닝(opinion mining)을 활용한 고객 리뷰/상품평 분류에 관한 연구가 주목받고 있다[5]. 이러한 배경에서 본 연구에서는 정성적(qualitative)인 고객이 직접 작성한 고객 앱 리뷰를 참고하여, 전통적인 협업 필터링의 정확도와 속성 기반 오피니언 마이닝(ABOM: Aspect-Based Opinion Mining) 활용한 협업 필터링 정확도를 비교분석 하였다. 이 때 정성적인 고객 리뷰를 정량적으로 분석하기 위해 오피니언 마이닝 기법 중 하나인 LDA 토픽모델링을 활용하여 속성을 추출하고 사용자 리뷰 간 유사도를 산출하여 감성분석을 수행하였다.

본 논문의 구성은 다음과 같다. 먼저 2장에서는 추천시스템과 오피니언 마이닝 그리고 토픽모델링에 관련 기본 개념에 대해서 살펴보고 이어 3장에서는 본 연구에 제안한 속성기반 오피니언 마이닝(ABOM) 추천시스템에 대해 설명하고 4장에서는 제안 알고리즘에 사용한 데이터 소개와 실험 설계, 실험 결과에 대하여 기술하고 마지막 5장 결론에서는 본 연구의 한계점 및 향후 연구에 대해 방향성을 제시한다.

II. Theoretical background

2.1 Recommendation system

일반적으로 협업 필터링 알고리즘 기반 추천 프로세스는 다음과 같은 절차에 의해 사용자를 위한 추천 대상 상품을 결정한다[6][7].

단계 1. 사용자-상품 평가점수 형렬 구성

CF 추천 알고리즘의 첫 번째 단계는 Table 1과 같이 n개의 상품에 대한 m명 사용자의 평점을 n×m의 사용자상품 평가점수행렬로 구성하는 것으로 시작된다.

Table 1. Example of user-item rating matrix

CPTSCQ_2023_v28n12_259_t0001.png 이미지

단계 2. 사용자 간 유사도 계산

단계 2에서는 추천 대상이 되는 사용자와 다른 사용자들 사이의 유사도를 산출하는 작업이 수행된다. 이러한 사용자 간 유사도에는 코사인 유사도(cosine similarity) 또는 피어슨 유사도(Pearson correlation coefficient, 이하 PCC)가 주로 사용된다. 이 중, 피어슨 유사도를 활용하여 사용자 간 유사도 계산은 아래 식(1)과 같다.

\(\begin{aligned}S_{(x, y)}=\frac{\sum_{i}\left(R_{x, i}-\overline{R_{x}}\right) \cdot\left(R_{y, i}-\overline{R_{y}}\right)}{\sqrt{\sum_{i}\left(R_{x, i}-\overline{R_{x}}\right)^{2}} \cdot \sqrt{\sum_{i}\left(R_{y, i}-\overline{R_{y}}\right)^{2}}}\end{aligned}\) (1)

위 식에서 S_{(x, y)}는 사용자 x와 사용자 y의 유사도이고, i는 사용자 x와 사용자 y가 공통으로 평가하는 상품의 색인이다. R_{x, i}은 상품 i에 대한 사용자 x의 평가점수이고, R_{y, i}은 상품 i에 대한 사용자 y의 평가점수이다. \(\begin{aligned}\overline {R}_{x}\end{aligned}\)은 사용자 x의 평가점수 평균값이고, \(\begin{aligned}\overline {R}_{y}\end{aligned}\) 은 사용자 y의 평가점수 평균값이다.

또한 코사인 유사도(cosine similarity)를 이용한 유사도 산출하는 식은 다음 식(2)와 같다.

\(\begin{aligned}\operatorname{sim}(\vec{a}, \vec{b})=\frac{\vec{a} \cdot \vec{b}}{|\vec{a}| *|\vec{b}|}\end{aligned}\) (2)

코사인 유사도는 평점을 벡터로 생각하고, 2개 벡터 사이의 각도를 계산하고, 그 각도가 적을수록 가까이 있다고 판단하기 때문에 서로 유사하다고 결정하는 방식이다.

단계 3. 이웃 선택

단계 3에서는 추천 대상자와 다른 모든 사용자 간 유사도가 추출되고 나면, 산출된 유사도를 기반으로 추천 대상자와 가장 유사한 n명의 이웃을 선택하게 된다.

단계 4. 추천 상품 결정

마지막 4단계에서는 3단계에서 선택된 이웃들 간의 평가점수를 바탕으로 추천 대상자의 평가 점수를 예측하는 작업이 수행된다. 이 때 i에 대한 상품을 사용자 x의 평가점수인 p_{x, i}는 다음 식(3)에 의해 산출된다.

\(\begin{aligned}p_{x, i}=\overline{R_{x}}+\sum_{z \in N}\left(R_{z, i}-\overline{R_{z}}\right) \cdot \frac{S_{x, z}}{\sum_{z \in N}\left|s_{x, z}\right|}\end{aligned}\) (3)

위 식에서 \(\begin{aligned}\overline {R}_{x}\end{aligned}\) 는 사용자 x의 평가점수의 평균값이고, S_{x, z}는 추천 대상자 x와 이웃 사용자 z 사이의 유사도를 나타내는 식이다. 그리고 n은 3단계에서 선택된 가장 유사한 이웃들의 집합을, z는 각각의 이웃을 나타내는 색인을 의미한다.

2.2 Opinion Mining

텍스트 마이닝의 한 기법인 오피니언 마이닝(Opinion Mining)을 이용하여 앱 리뷰 데이터의 감성분석을 할 수 있는데 감성분석은 사용자가 작성한 사람들의 의견, 성향, 태도 등과 같은 정성적이고 주관적인 데이터를 가지고 특정 주제에 대한 긍, 부정을 분류하는 기술이다. 감성점수는 감성사전을 통해 계산되며 감성사전은 긍정 단어사전과 부정 단어사전으로 분류된다. 감성점수는 긍정, 부정 단어수를 나타내는 비율로 긍정 단어 수에서 부정 단어 수를 빼는 것으로 계산된다. 문서에서 감성점수는 긍정적 단어가 표출되면 +1, 부정적 단어가 표출되면 –1을 한다. 감성점수가 0 을 초과 하면 전체적으로 문서는 긍정적 의견을 나타내는 것으로 표현되고, 감성점수가 0 미만이면 전체적으로 문서는 부정적 의견을 표현하는 것으로 확인된다. 그리고 감성점수가 0 이면 문서는 대체적으로 중립적 의견을 표현하는 것으로 평가된다[8].

2.3 Topic modeling

토픽모델링 알고리즘 중에서 본 연구에서 사용하는 LDA(Latent Dirichlet Allocation)는 기존 pLSI가 문서수준의 확률모형이 존재하지 않는 것을 보완하여 제시된 것으로 디리클레 분포에 기반한 확률적 토픽모델링 알고리즘이다[9]. 또한 LDA 모형은 기존의 알고리즘들과 비교할 때 가장 우수한 것으로 알려져 있다[10].

LDA 모형은 문맥과 관련된 단어들이 각 토픽별로 속할 확률을 계산하고, 계산된 단어 분포도의 바탕으로 주어진 문서 군집을 분석함으로써 각 문서들이 어떤 토픽을 다루고 있는지를 예측할 수 있다. LDA 모형은 단어의 교환성을 바탕으로 하는데, 단어의 교환성이란 단어 주머니(bag of words)라고 표현되기도 하는 성질로써 단어의 순서는 중요하지 않고 오로지 어떤 단어들이 출현하는지가 중요하다는 가정이다. 단어의 교환성 안에서는 ‘Blue sky’와 ‘Sky blue’ 두 문장 사이에 차이가 없다.

CPTSCQ_2023_v28n12_259_f0001.png 이미지

Fig. 1. Graphical representation of LDA

Fig. 1는 LDA의 그래픽 모델 표현으로 상자는 반복을 나타내는 plate이고 바깥쪽 판은 문서를 나타내며, 안쪽판은 문서 내에서 반복되는 주제와 단어선택의 확장을 나타낸다.

2.4 ABOM

속성 기반 오피니언 마이닝(ABOM: Aspect-Based Opinion Mining)은 텍스트 데이터의 sentiment(감성) 혹은 aspect(속성) 파악하여 속성에 맞게 주어진 텍스트를 요약하는 일련의 통계적 방법론 혹은 알고리즘을 말한다. ABOM은 크게 세 가지 방법으로 분류된다[8]. 첫 번째는 속성 탐지(aspect detection) 방법이고 두 번째는 감성 분석(sentiment analysis) 방법이며 세 번째는 속성 탐지와 감성 분석을 함께 수행하는 결합 방법 (JADSA: Joint of Aspect Detection and Sentiment Analysis)이다. 위 방법 중에서 세 번째 방법인 속성과 감성 분석을 결합하여 결과를 창출하면 시너지 효과를 나타낼 수 있기 때문이다.

JADSA 방법은 보통 세 단계로 구분 되는데, 이는 추출, 분류 그리고 감성 분석이다[8][11].

III. Proposal Algorithm

본 연구는 기존의 전통적인 협업 필터링의 정확도를 비교했을 때 새롭게 제안 연구 모형인 속성기반 오피니언 마이닝(ABOM)을 적용한 협업 필터링의 정확도 성능을 개선할 수 있는 알고리즘을 제안한다. 먼저 상품에 대한 리뷰 데이터를 수집하고, 리뷰로부터 상품의 속성별 정보를 추출하고 추출된 속성을 바탕으로 리뷰의 각 속성별로 분류하여 제안 알고리즘 연구모형을 도식화하면 Fig. 2과 같다.

CPTSCQ_2023_v28n12_259_f0002.png 이미지

Fig. 2. Proposed research model

3.1 Data collection

데이터 수집 단계는 온라인을 이용하여 상품의 고객 리뷰를 크롤링 작업을 하여 데이터를 수집하는 단계이다. 본 연구에서는 국내 사용자 중 스마트폰의 온라인 설문 시스템을 구축한 뒤 앱 추천시스템 사례 이용하여 구글과 애플스토어 등록되어 있는 모든 앱 중에서 2014년 1년 동안 사용한 국내에서 가장 인기 있는 48종 앱에 대한 설문 참여자들의 평가에 대한 평점(별 5개 만점)과 최소 50자 이상의 의견을 작성한 고객의 설문을 수집하였다. 상품별로 수집된 리뷰를 문서화하고, 이를 통합하여 고객 리뷰 통합 DB를 구성한다.

3.2 Attribute extraction using text mining

텍스트 마이닝을 이용한 속성 추출 단계는 수집한 리뷰 데이터를 이용하여 속성을 추출하는 단계이다. 전체 리뷰 데이터를 LDA에 적용하여 상품의 추출한 속성을 바탕으로 고객 리뷰를 각 속성별로 분류한다. 속성별 분류단계는 ‘텍스트 전처리’, ‘상품 속성 추출’, ‘속성별 리뷰 분류’의 3가지 단계로 구성된다.

3.3 Sentiment analysis & CF

감성분석 & CF 단계에서는 정성적인 텍스트인 평점과 고객리뷰를 수집하여 훈련용 데이터와 검증용 데이터로 분리하여 감성사전을 구축하여 긍, 부정 예측치를 도출하고 그 결과가 실제 고객 평가에 얼마나 근접하여 평가하는데 사용되었는지 파악한다. 고객의 리뷰 데이터를 활용하여 고객 리뷰의 정통적인 CF와 오피니언 마이닝이라고 불리는 감성분석을 이용하여 좀 더 사용자 유사도를 측정하는데 도움을 주고자 연구모형을 구현하였다.

CPTSCQ_2023_v28n12_259_f0003.png 이미지

Fig. 3. Cosine Similarity CF

\(\begin{aligned}\begin{array}{l}\text { Sentiment }\left(R_{i}\right) \\ =\frac{\left(\# \text { of Positive words in } R_{i}\right)-\left(\text { \#of Negative words in } R_{i}\right)}{\left(\text { \#of Positive words in } R_{i}\right)+\left(\text { \#of Negative words in } R_{i}\right)} \\\end{array}\end{aligned}\) (4)

3.4 ABOM mode

속성기반 오피니언 마이닝 기법인 ABOM은 텍스트 데이터의 속성 또는 감성을 파악하여 주어진 텍스트를 속성에 맞게 구현하는 알고리즘 또는 통계적 방법을 말한다. ABOM 방법 중 속성분석과 감성 분석을 함께 수행하여 결합하는 JADSA(Joint of Aspect Detection and Sentiment Analysis)는 추출, 분류, 감성 단계로 나눈다. 추출 단계에서는 속성과 감성을 추출하고 분류단계에서는 속성단어 감성단어를 긍정, 부정, 중립 등으로 분류하고 마지막 감성 단계에서 문서화된 감성단어의 점수들의 총점을 결정하고 사용자 유사성 정확도를 추출하기 위해서 협업필터링을 함께 적용한다.

CPTSCQ_2023_v28n12_259_f0004.png 이미지

Fig. 4. Sentiment analysis cosine similarity

IV. Experiment

4.1 Data collection

제안한 추천 알고리즘 모형을 구현하기 위하여, 본 연구에서는 앱 설문조사에 의해 사용된 국내 스마트폰 사용자의 앱 리뷰 데이터를 사용하였다. 본 실험에 사용된 데이터는[12] 연구에서 대학생을 대상으로 수집한 앱 구매이용 후기와 평점(5점) 데이터이다. 해당 데이터는 Fig. 5에 보이는 것과 같이 고객 리뷰인 텍스트와 5점 척도 기준의 평점으로 구성되어 있다. 총 1,227건의 데이터가 분석에 사용되었고, 이 중 평점을 기준으로 긍정(4, 5점)은 728건, 중립(3점)은 295건, 부정(1, 2점)은 204건으로 데이터 전처리가 되어있는 고객 앱 리뷰 데이터이다.

CPTSCQ_2023_v28n12_259_f0005.png 이미지

Fig. 5. Customer app review data

4.2 Experimental Design

본 연구에서 제안한 연구 모형 추천 알고리즘을 구현하기 위하여 파이썬(Python)을 이용하였으며, 데이터를 전처리한 후 형태소 분석은 KKMA(꼬꼬마)분석기를 수행하여 실험하였다.

본 실험에서 감성어 사전은 KOSAC를 사용하여 감성어 분석을 하였다. 그리고 위 Fig. 4에서 보여준 감성어 분석은 코사인 유사도를 이용하여 감성분석을 하였으며, 감성분석 점수는 (긍정단어수) - (부정단어수) / (긍정단어수) + (부정단어수)(긍정 1, 부정 0)로 표현한 식(4)와 같다.

협업 필터링에서 사용자 상품 평가 점수 행렬은 Fig. 1과 같고 사용자간 유사도 계산은 식(1)을 이용하여 본 연구 모형에서 사용하는 사용자간 유사도는 Fig. 3와 같이 코사인 유사도를 사용하였으며 계산식은 식(2)와 같다. 추천 대상 사용자의 평가점수를 사용자간 평가점수를 기반으로 예측하기 위해서는 식(3)을 이용하였다.

속성 추출을 위한 토픽 모델링은 LDA 토픽 모델링을 사용하였다. LDA 토픽 모델링은 5개의 토픽으로 나누고 각 속성별 가중치 값을 부여한 리뷰별로 토픽 모델링 결과를 이용하여 협업필터링의 평점과 감성스코어의 평점을 합산하여 평균값을 이용하여 정확도 오차를 계산하였다.

본 연구에서는 MAE(Mean Absolute Error), MAPE(Mean Absolute Percent Error), RMSE(Root Mean Square Error) 지표를 이용하여 통계모형의 성능을 평가하였다. MAE, MAPE, RMSE는 예측 평점의 정확도 평가를 위해 사용한다[1][13]. RMSE는 모형의 성능 측정을 위한 표준 통계 척도이며[14], 실제 평점과 예측 평점 사이의 차이에 대한 평균을 통해 성과 측정을 수행한다[15]. MAE 또한 모형 평가에서 유용하게 사용되는 측정방법으로[14], 실제 평점과 예측된 평점 사이의 차에 대한 평균의 절대 오차를 측정한다[16]. 마지막으로 MAPE(Mean Absolute Percentage Error)는 정확도의 오차를 백분율로 측정하는 지표이다. 각각의 산출 계산식은 다음의 식(5)와 같다.

\(\begin{aligned}\begin{array}{l}\text { RMSE }=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}} \\ \text { MAE }=\frac{1}{n} \sum_{i=1}^{n}\left|y_{i}-\hat{y}_{i}\right| \\ \text { MAPE }=100 \times \frac{1}{n} \sum_{i=1}^{n}\left|\frac{y_{i}-\hat{y_{i}}}{y_{i}}\right|\end{array}\end{aligned}\) (5)

제안된 알고리즘의 연구 모델을 구현하기 위해, 사용자 리뷰 유사도를 계산할 때 위 통계 기반 평점 정확도 모델을 활용하였다. 이를 통해 얼마나 성능이 개선되었는지 확인하기 위해 전통적인 협업 필터링의 평점 가중치 정확도와 속성 기반 오피니언 마이닝 기법인 LDA 토픽별 속성 추출과 감성 분석을 적용한 협업 필터링의 가중치 정확도 성능을 비교 분석하였다.

4.3 Experiment result

본 연구에서는 통계기반 연구 모형인 RMSE(Root Mean Square Error), MAE(Mean Absolute Error), MAPE(Mean Absolute Percent Error) 지표를 이용하여 통계모형의 성능을 비교 평가하였다. 아래 Table 2에서 알 수 있듯이 실험결과 평점만을 고려하는 전통적인 협업 필터링에 비해 ABOM(속성기반 오피니언 마이닝)이 LDA 토픽별 속성추출 가중치 값과 감성분석 긍정, 부정의 리뷰의 가중치 값과 협업 필터링의 가중치 값을 고려해서 정확도를 산출하여 평점을 비교했을 때 ABOM 방식이 기존의 협업 필터링보다 더 정확도가 우수한 것으로 확인되었다.

Table 2. Experiment result

CPTSCQ_2023_v28n12_259_t0002.png 이미지

참고로 각 5개의 토픽에 대한 속성 추출을 30개씩 구현한 가중치 값 계산결과는 Fig. 6과 같다. 한편 토픽별 주제 리뷰 결과는 Fig. 7과 같고, LDA 토픽 모델링 시각화는 아래 Fig. 8과 같이 표현되었다.

CPTSCQ_2023_v28n12_259_f0006.png 이미지

Fig. 6. Weight value results for each topic

CPTSCQ_2023_v28n12_259_f0007.png 이미지

Fig. 7. Topic review results by topic

CPTSCQ_2023_v28n12_259_f0008.png 이미지

Fig. 8. Topic modeling visualization

V. Conclusion

1. Academic, practical implications

본 연구의 학술적 시사점은 다음과 같다. 첫째, 추천 결과를 정량적인 평점만을 고려하여 구현한 기존 협업 필터링의 개선을 위해, 사용자 리뷰의 정성적인 정보를 고려한 토픽모델링과 감성분석을 결합하여 유사도를 이용한 협업 필터링의 성능을 높일 수 있는 새로운 추천 알고리즘을 제안하였다.

둘째, 제안한 알고리즘은 다소 복잡한 속성 기반 오피니언 마이닝 기법을 사용하여 토픽별 속성 추출과 감성 분석을 통해 협업 필터링 추천 시스템을 구축하였다. 이를 통해 기존 전통적인 협업 필터링의 단점을 보완하고, 다양한 방법을 고려하여 통계적 정확도를 산출하여 성능을 비교함으로써 추천 시스템을 개선하였다.

셋째, 데이터 수집이 상대적으로 용이한 대다수의 추천시스템 연구에서 사용한 영화 데이터가 아니라 오늘날 관심을 가지고 있는 온라인 쇼핑몰 관련 스마트폰 앱 고객 리뷰 데이터를 수집 사용하였다는데 의의를 둔다.

본 연구의 실무적 시사점은 다음과 같다.

첫째, 높은 정확도의 모델은 사용자에게 더 유용한 추천을 제공함으로써 사용자 만족도를 향상시키고 비즈니스 성과를 향상시킬 수 있다. 이는 고객이 제품이나 콘텐츠를 만족하게 되면 재구매율 향상과 고객 충성도 증가로 이어질 수 있어 기업 비즈니스 효과를 최대화 시킬 수 있다.

둘째, 정확한 추천은 사용자의 개별적인 취향을 잘 반영하므로 개인화된 서비스를 제공하는 데 도움되고 사용자 경험을 향상시키고 서비스에 대한 긍정적인 인상을 조성할 수 있다.

셋째, 본 연구에서 추가적으로 제시한 토픽모델링의 결과는 ABOM이 어떤 배경에서 추천결과를 생성하게 되었는지를 설명하는 일종의 설명가능한 AI(explainable AI)와 유사한 역할을 수행할 수 있다. 이는 추천결과를 사용자에게 이해시키는데 유용하게 활용될 수 있을 것으로 기대된다.

2. Limitations and future research

본 연구의 한계점은 다음과 같다. 첫째, 감성어 사전을 일반으로 사용하는 KOSAC 감성어 사전을 사용하여 감성 분석의 정확도가 다소 떨어진다. KOSAC 감성어 사전은 미리 구축된 감성 어휘 사전을 기반으로 감성을 분석하기 때문에 이를 보완하기 위해 사전에 없는 단어나 문장에 대해서도 context를 고려하여 학습된 언어 모델을 기반으로 감성 분석을 수행하는 KoBERT 감성어 사용 및 ‘표준국어 대사전(국립국어원 2018)’, 그 외 축약어, 이모티콘 등 표준국어 대사전에서 추출되지 않은 새로운 감성어까지 포한한 KNU 감성어 사전어 이용하여 감성어 분석을 한다면 정확도가 우수한 감성어 분석이 될 것으로 기대된다.

둘째, 본 연구에서 사용한 프로그램이 파이썬 프로그램만 사용하여 제안된 연구 결과가 한정적일 수 있다는 관점에서 향후 다양한 분석 프로그램을 적용하여 좀 더 정확한 연구 결과를 도출하고자 한다.

셋째, 고객 리뷰 데이터가 1,227건의 적은 자료로 정확도 추출에 다소 어려움이 있었으며 실제 데이터가 아닌 설문을 통해 확보한 데이터로 향후 연구에서는 실험 데이터가 아닌 실제 빅 데이터를 사용하여 제안 알고리즘을 구축한다면 더욱 우수한 성능이 기대된다.

참고문헌

R. K. Lee, N. Chung, and T. Hong, "Developing the Online Reviews Based Recommender Models for Multi-Attributes Using Deep Learning," The Journal of Information Systems 28, No. pp. 197-114, March 2019. DOI: 10.5859/KAIS.2019.28.1.97
J. Y. Choeh, S. K. Lee, and Y. B. Cho, "Applying Rating Score's Reliability of Customers to Enhance Prediction Accuracy in Recommender System," Journal of Digital Contents Society, Vol. 13, No. 7, pp. 379-385, July 2013. DOI: 10.5392/JKCA.2013.13.07.379
K. Jang, S. Park, and W. J. Kim, "Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign," Journal of KIISE, Vol. 42, No. 4, pp. 512-521, April 2015. DOI: 10.5626/JOK.2015.42.4.512
E. Maslowska, E. C. Malthouse, and V. Viswanathan, "Do customer reviews drive purchase decisions? The moderating roles of review exposure and price," Decision Support Systems, Vol. 98, pp. 1-9, June 2017. DOI: 10.1016/j.dss.2017.03.010
J. Lee, H. Le, and H. K. Lee, "A Study on Customer Reviews about Domestic and Imported Clothes Products through Opinion Mining" The Journal of Internet Electronic Commerce Research, Vol. 15, No. 3, pp. 223-234, January 2015.
Herlocker, J. L., J. A. Konstan, A. Borchers and J. Riedl, "An algorithmic framework for performing collaborative filtering," Proc. of the 22nd International ACMSIGIR Research and Development Conference on Information Retrieval, pp. 230-237, August 1999. DOI: 10.1145/312624.312682
S. Choi, K. Y. Kwahk, and H. Ahn, "Enhancing Predictive Accuracy of Collaborative Filtering Algorithms using the Network Analysis of Trust Relationship among Users," Journal of Intelligence and Information Systems, Vol. 22, No. 3, pp. 113~127, September 2016. DOI: 10.13088/jiis.2016.22.3.113
K. Schouten and F. Frasincar, "Survey on aspect-level sentiment analysis," IEEE Transactions on Knowledge and Data Engineering Vol. 28, pp. 813-830, January 2015. DOI: 10.1109/TKDE.2015.2485209
D. M. Blei, A. Y. Ng, and M. O. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, pp. 993-1022, January 2003.
C. Chiru, T. Rebedea, and S. Ciotec, "Comparison between LSA-LDA-Lexical Chains," Proceedings of the 10th International Conference on Web Information Systems and Technologies Vol. 2(WEBIST), pp. 255-262, 2014. DOI: 10.5220/0004798102550262
M. Hu and B. Liu, "Mining and Summarizing Customer Reviews," Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'04), pp. 168-177, August 2004. DOI: 10.1145/1014052.1014073
B. Jeon and H. Ahn, "A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps," Journal of Intelligence and Information Systems, Vol. 21, No. 2, pp. 1-18, June 2015. DOI: 10.13088/jiis.2015.21.2.01
G. Shani and A. Gunawardana, "Evaluating Recommendation Systems," In: Ricci, F., Rokach, L., Shapira, B., Kantor, P. (eds) Recommender Systems Handbook. Springer, Boston, MA. pp. 257-297, 2011. DOI: 10.1007/978-0-387-85820-3_8
T. Chai, and R. R. Draxler, "Root mean square error (RMSE) or mean absolute error (MAE)? - Arguments against avoiding RMSE in the literature," Geoscientific Model Development, Vol. 7, Iss. 3, pp. 1247-1250, June 2014. DOI: 10.5194/gmd-7-1247-2014
P. Cremonesi, Y. Koren, and R. Turrin, "Performance of Recommender Algorithms on Top-N Recommendation," Proceedings of the 4th ACM Conference on Recommender Systems, pp. 39-46, September 2010. DOI: 10.1145/1864708.1864721
J. L. Herlocker, J. A. Konstan, L. G. Terveen, and J. T. Riedl, "Evaluating Collaborative Filtering Recommender Systems," ACM Transactions on Information Systems, Vol. 22, No. 1, pp. 5-53, January 2004. DOI: 10.1145/963770.963772

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

Improvement of recommendation system using attribute-based opinion mining of online customer reviews

초록

키워드

I. Introduction

II. Theoretical background

2.1 Recommendation system

2.2 Opinion Mining

2.3 Topic modeling

2.4 ABOM

III. Proposal Algorithm

3.1 Data collection

3.2 Attribute extraction using text mining

3.3 Sentiment analysis & CF

3.4 ABOM mode

IV. Experiment

4.1 Data collection

4.2 Experimental Design

4.3 Experiment result

V. Conclusion

1. Academic, practical implications

2. Limitations and future research

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)