DOI QR코드

DOI QR Code

A Study on Simplification of Machine Learning Model

기계학습 모델의 간략화 방법에 대한 연구

  • Received : 2016.06.24
  • Accepted : 2016.08.05
  • Published : 2016.08.31

Abstract

One of major issues in machine learning that extracts and acquires knowledge implicit in data is to find an appropriate way of representing it. Knowledge can be represented by a number of structures such as networks, trees, lists, and rules. The differences among these exist not only in their structures but also in effectiveness of the models for their problem solving capability. In this paper, we propose partition utility as a criterion function for clustering that can lead to simplification of the model and thus avoid overfitting problem. In addition, a heuristic is proposed as a way to construct balanced hierarchical models.

데이터에 내포되어 있는 주요 정보나 지식을 추출해 내는 기계학습 방법에서 주요 이슈의 하나는 지식 표현 방식이다. 여러 가지 구조로 표현될 수 있는 지식을 모델이라고 부른다. 모델에는 그 내부 구조에 따라 트리구조, 네트워크 구조, 리스트 구조, 규칙 등 다양한 구조로 나눈다. 구조의 차이는 단지 표현의 차이뿐만 아니라 그것이 갖는 문제해결 능력에도 차이가 있다. 본 논문에서는 모델을 간략화 시켜 오버피팅 문제를 해결하고 분류 능력을 향상시키는 방법을 제안한다. 모델을 단순화 시키는데 사용되는 파티션 유틸리티 기준함수 제시하고 휴리스틱을 이용하여 균형 잡힌 계층 구조를 생성하는 방법을 제안한다.

Keywords

References

  1. Wikipedia, https://en.wikipedia.org/wiki/
  2. Quinlan, J.R. "Induction of Decision Trees," Machine Learning, 1, pp.81-106 1986.
  3. Fisher, D., "Iterative Optimization and Simplification of Hierarchical Clustering,", pp.147-179, J. of AI Research, 1996
  4. Jeon, Jinho, Lee, Gyesung., Wu, X, "Rearranging datga objects for efficient and stable clustering," Applied Computing(ACM), March, 2005
  5. Biswas, G, Weinberg, J.B. and Fisher, H.D., "ITERATE: A conceptual clustering algorithm for data mining" IEEE Tr. on systems, man and cybernetics, vol.28, part C No.2, May 1998.
  6. UCI machine learning repository, https://archive. ics.uci.edu/ml/datasets/
  7. Myung, Jay., Navarro, D.J., and Pitt, M.A., "Model Selection by Normalized Maximum Likelihood," Journal of Mathematical Psychology, pp. 167-179, Elsevier, 2006.
  8. Zhang, X.S., Shrestha, B., Yoon, S, et.al., "An Ensemble Architecture for Learning Complex Problem-solving Techniques from Demonstration," ACM Trans. on Intelligent Systems and Technology, pp.3-38, 2012
  9. Cho Younghee, Lee Gyesung, A study on improving prediction accuracy by modelling multiple similar time series, pp. 137-143, JIIBC, 2010.
  10. Cho Younghee, Lee Gyesung, Prediction on Clusters by using Information Criterion and multiple seeds, pp. 145-152. , JIIBC, 2010.