DOI QR코드

DOI QR Code

목적 지향 대화를 위한 효율적 질의 의도 분석에 관한 연구

Effective Text Question Analysis for Goal-oriented Dialogue

  • 김학동 (세종대학교 디지털콘텐츠학과) ;
  • 고명현 (세종대학교 디지털콘텐츠학과) ;
  • 임헌영 (세종대학교 디지털콘텐츠학과) ;
  • 이유림 (세종대학교 인공지능언어공학과) ;
  • 지민규 (세종대학교 소프트웨어융합학과) ;
  • 김원일 (세종대학교 소프트웨어학과)
  • Kim, Hakdong (Department of Digital Contents, Sejong University) ;
  • Go, Myunghyun (Department of Digital Contents, Sejong University) ;
  • Lim, Heonyeong (Department of Digital Contents, Sejong University) ;
  • Lee, Yurim (Department of Artificial Intelligence and Linguistic Engineering, Sejong University) ;
  • Jee, Minkyu (Department of Software Convergence, Sejong University) ;
  • Kim, Wonil (Department of Software, Sejong University)
  • 투고 : 2018.11.14
  • 심사 : 2019.01.09
  • 발행 : 2019.01.30

초록

본 연구는 목적 지향 대화 시스템 내에서 단일 한국어 텍스트 형식의 질문으로부터 질의자의 의도를 파악하는 것을 목적으로 한다. 목적 지향 대화 시스템은 텍스트 또는 음성을 통한 사용자의 특수한 요구를 만족시켜주는 대화 시스템을 의미한다. 의도 분석 과정은 답변 생성에 앞서 사용자의 질의 의도를 파악하는 단계로, 목적 지향 대화 시스템 전체의 성능에 큰 영향을 준다. 생활화학제품이라는 특정 분야에 제안 모델을 사용하였고, 해당 분야와 관련된 한국어 텍스트 데이터를 이용하였다. 특정 분야에 독립적이며 범용적인 의도를 의미하는 화행과, 특정 분야에 종속적인 의도를 의미하는 개념열로 나누어 분석한다. 화행과 개념열을 분석하기 위하여 단어 임베딩 모델, 합성곱 신경망을 이용한 분류 방법을 제안한다. 단어 임베딩 모델을 통하여 단어의 의미정보를 추상화하고, 추상화된 단어의 의미정보를 기반으로 합성곱 신경망을 통하여 개념열 및 화행 분류를 수행한다.

The purpose of this study is to understand the intention of the inquirer from the single text type question in Goal-oriented dialogue. Goal-Oriented Dialogue system means a dialogue system that satisfies the user's specific needs via text or voice. The intention analysis process is a step of analysing the user's intention of inquiry prior to the answer generation, and has a great influence on the performance of the entire Goal-Oriented Dialogue system. The proposed model was used for a daily chemical products domain and Korean text data related to the domain was used. The analysis is divided into a speech-act which means independent on a specific field concept-sequence and which means depend on a specific field. We propose a classification method using the word embedding model and the CNN as a method for analyzing speech-act and concept-sequence. The semantic information of the word is abstracted through the word embedding model, and concept-sequence and speech-act classification are performed through the CNN based on the semantic information of the abstract word.

키워드

BSGHC3_2019_v24n1_48_f0001.png 이미지

그림 2. 의도 분석 프로세스 Fig. 2. Intent analysis process

BSGHC3_2019_v24n1_48_f0002.png 이미지

그림 1. 의도 분석 모델 Fig. 1. Intent analysis model

BSGHC3_2019_v24n1_48_f0003.png 이미지

그림 3. Word2vec (skip-gram) 모델 Fig. 3. Word2vec (skip-gram) model

표 1. 학습 및 테스트용 데이터 셋 – 입력값 Table 1. Dataset for training and test – Input attribute

BSGHC3_2019_v24n1_48_t0001.png 이미지

표 2. 학습 및 테스트용 데이터 셋 - 출력값 Table 2. Dataset for training and test – Output attribute

BSGHC3_2019_v24n1_48_t0002.png 이미지

표 3. 화행 클래스 Table 3. Speech-act class

BSGHC3_2019_v24n1_48_t0003.png 이미지

표 4. 개념열 클래스 Table 4. Concept-sequence class

BSGHC3_2019_v24n1_48_t0004.png 이미지

표 5. 한글 형태소 품사-태그 표 (일부분) [12] Table 5. Korean morpheme part of speech-tag table (partial) [12]

BSGHC3_2019_v24n1_48_t0005.png 이미지

표 6. Word2Vec 모델의 하이퍼 파라미터 Table 6. Hyper parameters of Word2Vec model

BSGHC3_2019_v24n1_48_t0006.png 이미지

표 7. 합성곱 신경망 모델의 하이퍼 파라미터 Table 7. Hyper parameters of Convolutional Neural Network model

BSGHC3_2019_v24n1_48_t0007.png 이미지

표 8. 파라미터 변화에 따른 제안 모델의 실험 결과 (화행 / 개념열) Table 8. Experiment result of proposed model according to parameter change (speech-act / concept-sequence)

BSGHC3_2019_v24n1_48_t0008.png 이미지

표 9. 제안 방법과 타 모델들 간 성능 비교 Table 9. Performance comparison between proposed model and other models

BSGHC3_2019_v24n1_48_t0009.png 이미지

참고문헌

  1. Kyung-soon Lee, Jin-xia Huang, Oh-woog Kwon, Young-kil Kim. "A Chatter Bot for a Task-Oriented Dialogue System," KIPS Transactions on Software and Data Engineering6, No.11, 499-506, 2017. https://doi.org/10.3745/KTSDE.2017.6.11.499
  2. Oh-Woog Kwon, Teakgyu Hong, Jin-Xia Huang and Young-Kil Kim, "An Analysis for Dialogue Processing Technologies and Service Trends of Virtual Personal Assistants," Communications of the Korean Institute of Information Scientists and Engineers, Vol.35, No.8, pp.19-27, 2017.
  3. Hyun-Jung Lee, Analysis and Prediction of Speakers' Intentions in a Dialogue-based NLIDB, PhD's Thesis of Sokang University, Seoul, South Korea, 2014.
  4. Natural language processing technology for dialog system development, https://m.blog.naver.com/PostView.nhn?blogId=naver_search&logNo=221027662050&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F (accessed Nov. 6, 2018).
  5. N. Reithinger and E. Maier, "Utilizing Statistical Dialogue Act Processing in VERBMOBIL," Proceedings of the 33rd annual meeting on Association for Computational Linguistics, Cambridge, Massachusetts, pp.116-121, 1995
  6. Jong Min En, Song Wook Lee, Jung Yun Seo, "An analysis of Speech Acts for Korean Using Support Vector Machines," The KIPS Transactions : Part B, Vol.12, No.3, pp.365-368, 2005
  7. Lee, Hyunjung, Kim, Harksoo, Seo, Jungyun, "Domain action classification using a maximum entropy model in a schedule management domain," AI Communications, Vol.21, No.4, pp.221-229, 2008 https://doi.org/10.3233/AIC-2008-0425
  8. R. W. Smith and D. R. Hipp, Spoken Natural Language Dialog Systems: a Practical Approach, Oxford University Press Inc, Oxford, United Kingdom, 1995.
  9. Hwang, Jaw-Won; Ko, Young-Joong, "A Korean Sentence and Document Sentiment Classification System Using Sentiment Features," Korean Institute of Information Scientists and Engineers, Vol.14, No.3, pp.336-340, 2008
  10. National Law Information Center, http://www.law.go.kr/LSW/admRulLsInfoP.do?admRulSeq=2100000110550#AJAX (accessed Nov. 6, 2018).
  11. Dore, J, "Holophrases, speech acts and language universals," Journal of Child Language, Vol.2, No.1, pp.21-40, 1975. https://doi.org/10.1017/S0305000900000878
  12. KKMA morpheme analyzer, http://kkma.snu.ac.kr/ (accessed Nov. 6, 2018).
  13. Y. Goldberg, O. Levy, "word2vec Explained:deriving Mikolov et al.'s negative-sampling word-embedding method", arXiv preprint arXiv: 1402.3722, 2014.