A Study on Domain Discrimination Model for CSV Format Public Data Using Data Distribution Statistics

데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델에 관한 연구

  • Ha-Na Jeong (Dept. of Computer Engineering, Kongju National University) ;
  • Jae-Woong Kim (Dept. of Software, Kongju National University) ;
  • Yun-Yeol Lee (Dept. of Computer Engineering, Kongju National University) ;
  • Yi-Geun Chae (Dept. of Computer Engineering, Kongju National University) ;
  • Young-Suk Chung (Dept. of Computer Engineering, Kongju National University)
  • 정하나 (공주대학교 대학원 컴퓨터공학과) ;
  • 김재웅 (공주대학교 소프트웨어학과) ;
  • 이윤열 (공주대학교 컴퓨터공학과) ;
  • 채의근 (공주대학교 컴퓨터공학과) ;
  • 정영석 (공주대학교 대학원 컴퓨터공학과)
  • Published : 2023.07.12

Abstract

정부는 공공데이터의 품질 관리를 위하여 공공데이터 품질관리 수준평가를 진행하여 공공데이터 품질을 관리하고 있다. 파일 형식의 공공데이터를 진단 시 품질진단 담당자가 대량의 파일데이터를 필드명과 필드 내 데이터에 의존하여 수작업으로 도메인을 판단하여 진단한다. 때문에 품질진단의 정확성을 신뢰하기 어렵고 진단에 많은 시간이 소요된다. 본 논문은 파일형식의 공공데이터 품질진단의 정확성을 확보하고 진단 소요시간을 단축하기 위해 데이터 분포 통계를 이용한 CSV 형식의 공공데이터 도메인 판별 모델을 제안하였다. 제안된 모델을 적용하면 공공데이터 품질의 정확성을 향상하고 진단 소비 시간을 단축시킬 것으로 기대된다.

Keywords