DOI QR코드

DOI QR Code

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee (Dept. of Computer Science & Engineering, Shinhan University)
  • Received : 2019.10.07
  • Accepted : 2019.11.07
  • Published : 2019.11.29

Abstract

We are to build an unsupervised machine learning-based language model which can estimate the amount of information that are in need to process words consisting of subword-level morphemes and syllables. We are then to investigate whether the reading times of words reflecting their morphemic and syllabic structures are predicted by an information-theoretic measure such as surprisal. Specifically, the proposed Morfessor-based unsupervised machine learning model is first to be trained on the large dataset of sentences on Sejong Corpus and is then to be applied to estimate the information-theoretic measure on each word in the test data of Korean words. The reading times of the words in the test data are to be recruited from Korean Lexicon Project (KLP) Database. A comparison between the information-theoretic measures of the words in point and the corresponding reading times by using a linear mixed effect model reveals a reliable correlation between surprisal and reading time. We conclude that surprisal is positively related to the processing effort (i.e. reading time), confirming the surprisal hypothesis.

본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

Keywords

References

  1. A. J and M. O, "What Your Username Says About You," Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 2302-2307, Sept. 2015.
  2. M. Creutz, and K. Lagus, "Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor1.0," Helsinki University of Technology, March 2006.
  3. S. Virpioja, M. Lehtonen, A. Hulten, H. Kivikari, R. Salmelin, and K. Lagus, "Using Statististical Models of Morphology in the Search for Optimal Units of Representation in the Human Mental Lexicon," Cognitive Science, Vol. 42, pp. 939-973, March 2018. https://doi.org/10.1111/cogs.12576
  4. M. Lehtonen, M. Varjokallio, H. Kivikari, A. Hulten, S. Virpioja, T. Hakala, M. Kurimo, K. Lagus, and R. Salmelin, "Statistical models of morphology predict eye-tracking measures during visual word recognition," Memory&Cognition, Vol. 47, Issue 7, pp. 1245-1269, May 2019.
  5. G. Booij. "The Grammar of Words: An Introduction to Linguistic Morphology. Oxford Textbooks in Linguistics," OUP Oxford, Sept. 2012.
  6. Sejong-Corpus, http://ithub.korean.go.kr/user/main.do
  7. Kkma, http://kkma.snu.ac.kr/documents/?doc=postag
  8. UTagger, http://nlplab.ulsan.ac.kr/doku.php?id=utagger
  9. Khaiii, https://tech.kakao.com/2018/12/13/khaiii/
  10. S. Virpioja, P. Smit, S-A. Gronroos, and M. Kronroos, "Morfessor 2.0: Python Implementation and Extensions for Morfessor Baseline," Technical Report, Aalto University publication series SCIENCE + TECHNOLOGY, 25, pp. 38, Dec. 2013.
  11. A. Viterbi, "Error bounds for convolutional codes and an asymptotically optimum decoding algorithm." IEEE Transactions on Information Theory, 13(2):260-269, April, 1967 https://doi.org/10.1109/TIT.1967.1054010
  12. Korean Lexicon Project, http://klexicon.org
  13. K. Yi, M-M. Koo, K. Nam, K. Park, T. Park, S. Bae, C-H. Lee, H-W. Lee and J-R. Cho, "The Korean Lexicon Project-A Lexical Decision Study on 30,930 Korean Words and Nonwords," The Korean Journal of Cognitive and Biological Psychology, pp. 395-410, Oct. 2017. https://doi.org/10.22172/cogbio.2017.29.4.004
  14. E. Kim, "A Deep Learning-based Article- and Paragraph-level Classification," The Journal of the Korea Society of Computer and Information, pp. 31-41, Nov. 2018.
  15. J. Park, A. Seok, Y. Yoon, and B. Rhee, "An Analysis of Instagram Hashtags Related to the Exhibitions in Korean," The Journal of the Korea Society of Computer and Information, pp. 49-56, March 2019.