DOI QR코드

DOI QR Code

A Data Cleansing Strategy for Improving Data Quality of National R&D Information - Case Study of NTIS

데이터 품질을 고려한 국가R&D정보 데이터베이스의 통합 사례 연구 - NTIS 데이터베이스 통합 사례

  • 신성호 (한국과학기술정보연구원 정보기술연구실) ;
  • 윤영준 (한국과학기술정보연구원 NTIS사업단) ;
  • 양명석 (한국과학기술정보연구원 NTIS사업단) ;
  • 김진만 (한국과학기술정보연구원 NTIS사업단) ;
  • 손강렬 (한국과학기술정보연구원 NTIS사업단)
  • Received : 2011.02.14
  • Accepted : 2011.03.03
  • Published : 2011.06.30

Abstract

On the point of data quality management, data quality is influenced by quality policy, quality organization, business process, and business rule. Business rules, guide of data manipulation, have effects on data quality directly. In case of building an integration database among distributed databases, defining business rule is more important because data integration needs to consider heterogeneous structure, code, and data standardization. Also data value has various figures depended on data type, unit, and transcription. Finally, database structure and data value problem have to be solved to improve data quality. For handling them, it is needed to draw database integration model and cleanse data in integrated database. NTIS(stands for National science and Technology Information Service) has an aim to serve users who need all information about national R&D by internet, and for that aim, it has a integrated database which has been made with several database sources. We prove that database integration model and data cleansing are needed to build a successful integrated database through NTIS case study.

데이터 품질관리 관점에서 볼 때, 데이터의 품질은 품질정책, 품질조직, 업무프로세스, 업무규칙 등 여러 요인에 의해 영향을 받는다. 이중에서도 업무규칙은 실제 데이터를 조작하는 행위의 지침이 되는 것으로써 데이터 품질에 직접적인 영향을 미친다. 여러 기관의 데이터베이스를 통합하여 단일의 데이터베이스를 구축하는 경우에는 더 신중하게 업무규칙을 수립할 필요가 있다. 분산된 데이터베이스 내에 있는 데이터를 단일의 데이터베이스로 통합한다는 것은 단순히 데이터의 통합만을 의미하는 것이 아니라 상이한 스키마, 코드 체계, 데이터 표준 등을 사전에 고려해야 함을 의미한다. 이런 요소들을 고려하더라도 데이터 자체는 형식, 단위, 표현 등에 따라서 다양한 모습을 가진다. 결국 데이터베이스의 구조적인 문제와 데이터 자체의 의미적인 문제가 데이터베이스 통합과 통합된 데이터베이스 내 데이터의 품질 제고를 위한 선결 과제라 할 수 있다. 이러한 문제들을 해결하기 위해서는 먼저 통합 시 통합 모델의 설계가 필요하고, 통합된 데이터베이스의 데이터에 대한 정제가 필요하다. 범부처적으로 분산되어 있는 국가R&D정보를 수집하여 서비스하는 국가과학기술종합정보서비스(NTIS)도 여러 기관에 존재하는 데이터베이스를 연계 통합하여 단일의 데이터베이스를 구축하였다. NTIS의 사례를 통해 체계적인 통합 모델 수립과 정제에 의해 통합된 데이터베이스의 데이터는 그렇지 않은 데이터보다 정확도 측면에서 품질이 제고되었음이 입증되었다.

Keywords

References

  1. A. Levitin and T. Redman "A Model of the Data (life) cycles with application to quality," Information and Software Technology, Vol. 35, No. 4, pp. 217-223, Apr. 1993. https://doi.org/10.1016/0950-5849(93)90069-F
  2. E. Simoudis et al, "Using Recon for Data Cleaning," KDD-95 Proceedings, pp. 282-287, 1995.
  3. I. Guyon et al, "Discovering Informative Patterns and Data Cleaning," AAAI-94 Workshop on Knowledge Discovery in Databased, AAAI Technical Report WS-94-03, pp. 145-156, Mar. 1996.
  4. R. Kimbal, "Dealing with Dirty Data: Every serious data warehouse application needs good data, yet few people address the issue", DBMS, Vol. 9, No. 10, pp. 55-62, Sep. 1996.
  5. M. A. Hernandez and J. S. Stolfo, "Real-World Data is Dirty: Data Cleansing and The Merge/Purge Problem," Journal of Data Mining and Knowledge Discovery, Vol. 2, No. 1, pp. 9-37, Jan. 1998. https://doi.org/10.1023/A:1009761603038
  6. H. Galhardas et al, "An Extensible Framework for Data Cleansing," Rapport Recherche, Institute National de Recherche en informatique et en Automatique, Jul. 1999.
  7. E. Rahm and H. H. Do, "Data Cleaning: Problems and Current Approaches," IEEE Bulletin of the Technical Committee on Data Engineering, Vol. 23, No. 4, pp. 3-13, Dec. 2000.
  8. A. D. Chapman, "Principles and Methods of Data Cleaning - Primary Species and Species-Occurrence Data," Global Biodiversity Information Facility, Jul. 2005.
  9. J. I. Maletic and A. Marcus, "Data Cleansing: Beyond Integrity Analysis," Proceedings of the Conference on Information Quality, pp. 200-209, Jun. 2000.
  10. H. J. Whang, "A Study on Data Cleansing Methodology," Baewha Women's Univ., Vol. 23, pp. 185-203, May 2004.
  11. K. R. Shon, "A Data Quality Improvement Method in Integrations of Distributed Data : National Science & Technology Information Services," The Journal of Korean Institute of Marine Information and Communication Sciences, Vol. 13, No. 8, pp. 1623-1636, Aug. 2009.
  12. J. A. Seol, "Design of Data Integrating System Using XML Metadata Registry in a Distributed Environment", Kwangwoon Univ., Feb. 2004.
  13. Jae-Soo Kim, "Introduction of NTIS," Journal of Scientific & Technological Knowledge Infrastructure, Vol. 30, pp. 31-34, May 2008.
  14. A. P. Sheth and J. A. Larson, "Federated database systems for managing distributed, heterogeneous, and autonomous databases," ACM Computing Surveys (CSUR) - Special issue on heterogeneous databases, Vol. 22, No. 3, pp. 183-236, Sep. 1990. https://doi.org/10.1145/96602.96604
  15. I. N. Kwon et al., "R&D Information Distribution Infrastructure," Journal of scientific & technological knowledge infrastructure, Vol. 30, pp. 45-53, May 2008.
  16. Data Quality Assessment Procedure Manual(Ver1.0), Korea Database Agency, Oct. 2009

Cited by

  1. Methodology for Issue-related R&D Keywords Packaging Using Text Mining vol.16, pp.2, 2015, https://doi.org/10.7472/jksii.2015.16.2.57
  2. 학술논문 통합 DB 구축을 위한 메타데이터 스키마 비교 분석 vol.20, pp.2, 2020, https://doi.org/10.5392/jkca.2020.20.02.689
  3. Design and Implementation of the Prevention System for Side Effects of Polypharmacy Components Utilizing Data Queuing Algorithm vol.26, pp.11, 2011, https://doi.org/10.9708/jksci.2021.26.11.217