Machine Learning Language Model Implementation Using Literary Texts

문학 텍스트를 활용한 머신러닝 언어모델 구현

  • 전현구 (숭실대학교 글로벌미디어학부) ;
  • 정기철 (숭실대학교 글로벌미디어학부) ;
  • 권경아 (숭실대학교 글로벌미디어학부) ;
  • 이인성 (숭실대학교 영어영문학과)
  • Received : 2021.04.17
  • Accepted : 2021.05.07
  • Published : 2021.05.31


The purpose of this study is to implement a machine learning language model that learns literary texts. Literary texts have an important characteristic that pairs of question-and-answer are not frequently clearly distinguished. Also, literary texts consist of pronouns, figurative expressions, soliloquies, etc. They hinder the necessity of machine learning using literary texts by making it difficult to learn algorithms. Algorithms that learn literary texts can show more human-friendly interactions than algorithms that learn general sentences. For this goal, this paper proposes three text correction tasks that must be preceded in researches using literary texts for machine learning language model: pronoun processing, dialogue pair expansion, and data amplification. Learning data for artificial intelligence should have clear meanings to facilitate machine learning and to ensure high effectiveness. The introduction of special genres of texts such as literature into natural language processing research is expected not only to expand the learning area of machine learning, but to show a new language learning method.

본 연구의 목적은 문학 텍스트를 학습한 머신 러닝 언어 모델을 구현하는데 있다. 문학 텍스트는 일상 대화문처럼 질문에 대한 답변이 분명하게 구분되지 않을 때가 많고 대명사와 비유적 표현, 지문, 독백 등으로 다양하게 구성되어 있다는 특징이 있다. 이런 점들이 알고리즘의 학습을 용이하지 않게 하여 문학 텍스트를 활용하는 기계 학습의 필요성을 저해시킨다. 문학 텍스트를 학습한 알고리즘이 일반 문장을 학습한 알고리즘에 비해 좀 더 인간 친화적인 상호작용을 보일 가능성이 높다. 본 논문은 '문학 텍스트를 학습한 머신 러닝 언어 모델 구현'에 관한 연구로서, 대화형 기계 학습에 문학 텍스트를 활용하는 연구에서 필수적으로 선행되어야 할 세 가지 텍스트 보정 작업을 제안한다: 대명사 처리, 대화쌍 늘리기, 데이터 증폭 등에 대한 내용으로 기계 학습이 용이하고 그 효과도 높다고 판단됩니다. 인공지능을 위한 학습용 데이터는 그 의미가 명료해야 기계 학습이 용이하고 그 효과도 높게 나타난다. 문학과 같은 특수한 장르의 텍스트를 자연어 처리 연구에 도입하는 것은 새로운 언어 학습 방식의 제안과 함께 머신 러닝의 학습 영역도 확장시켜 줄 것이다.



이 연구는 2019년도 숭실대학교 교내연구비 지원(융합연구)에 의한 연구임.


  1. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. arXiv preprint arXiv: 1409.3215.
  2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. arXiv preprint arXiv: 1706.03762.
  3. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
  4. Artificial Intelligence Times. (2020, August 14). GPT-3, the most outstanding ability in human history, "language artificial intelligence". Retrieved from
  5. C. S Lewis. (2001). The Chronicles of Narnia. New York: HarperCollins Publishers.
  6. S. Kim. (2019). In the Age of Artificial Intelligence, Is Human Writing still Possible? - Critical Prediction of Changes in Writing(text). The Korean Journal of Literacy Research, 10(3), 283-315. doi: 10.37736/kjlr.2019.
  7. D. Han, H. Choi, J. Kim, I. Doo, S. Kim (2012). Media and Culture Technology, Humanities Contents. Humanities Contents, (27), 53-59.
  8. H. Chae. (2013). A Study on Humanities and Engineering based on Human-centered Design: Providing Human Interface for Media Contents in User Equipment. Lingua Humanitatis, 15(1), 153-167.
  9. N. Oh, B. Rhee. (2019). A Study on the Expression of Poetry Converged with Augumented Reality(AR). The Korean Society of Science & Art, 37(4), 191-204. doi: 10.17548/ksaf.2019.09.30.191
  10. S. Choi, S Park, K Kim. (2017). Korean Abbreviation Generation using Sequence to Sequence Learning. KIISE Transactions on Computing Practices, 23(3), 183-187. doi:
  11. W. Kang, B. Kim. (2020). A Study on the Types of Classic Fiction Using Deep Learning Techniques - Focusing on Hero Novels and Romantic Novels -. Korean Language and Literature in International Context, 84, 9-35. doi:
  12. H. Park. (2020). A Study on the of Historical Character Design by Non-verbal Communication Theory. The Treatise on The Plastic Media, 23(1),177-184. doi:
  13. S. Ha. (2017). "Dialogue response generation using RNN-based sequence-to-sequence learning (Doctoral dissertation, Graduate School of Seoul National University).
  14. Coulombe, C. (2018). Text data augmentation made simple by leveraging nlp cloud apis. arXiv preprint arXiv: 1812.04718.
  15. S. Park, Y. Jung, H. Kang, "Effects of Personalization and Types of Interface in Task-oriented Chatbot," The Journal of the Convergence on Culture Technology (JCCT) 7.1 (2021): 595-607. doi:
  16. Kim, H., Jung, S., & Ryu, G. (2020). A Study on the Restaurant Recommendation Service App Based on AI Chatbot Using Personalization Information. International Journal of Advanced Culture Technology, 8(4), 263-270. doi: