Abstract
On the point of data quality management, data quality is influenced by quality policy, quality organization, business process, and business rule. Business rules, guide of data manipulation, have effects on data quality directly. In case of building an integration database among distributed databases, defining business rule is more important because data integration needs to consider heterogeneous structure, code, and data standardization. Also data value has various figures depended on data type, unit, and transcription. Finally, database structure and data value problem have to be solved to improve data quality. For handling them, it is needed to draw database integration model and cleanse data in integrated database. NTIS(stands for National science and Technology Information Service) has an aim to serve users who need all information about national R&D by internet, and for that aim, it has a integrated database which has been made with several database sources. We prove that database integration model and data cleansing are needed to build a successful integrated database through NTIS case study.
데이터 품질관리 관점에서 볼 때, 데이터의 품질은 품질정책, 품질조직, 업무프로세스, 업무규칙 등 여러 요인에 의해 영향을 받는다. 이중에서도 업무규칙은 실제 데이터를 조작하는 행위의 지침이 되는 것으로써 데이터 품질에 직접적인 영향을 미친다. 여러 기관의 데이터베이스를 통합하여 단일의 데이터베이스를 구축하는 경우에는 더 신중하게 업무규칙을 수립할 필요가 있다. 분산된 데이터베이스 내에 있는 데이터를 단일의 데이터베이스로 통합한다는 것은 단순히 데이터의 통합만을 의미하는 것이 아니라 상이한 스키마, 코드 체계, 데이터 표준 등을 사전에 고려해야 함을 의미한다. 이런 요소들을 고려하더라도 데이터 자체는 형식, 단위, 표현 등에 따라서 다양한 모습을 가진다. 결국 데이터베이스의 구조적인 문제와 데이터 자체의 의미적인 문제가 데이터베이스 통합과 통합된 데이터베이스 내 데이터의 품질 제고를 위한 선결 과제라 할 수 있다. 이러한 문제들을 해결하기 위해서는 먼저 통합 시 통합 모델의 설계가 필요하고, 통합된 데이터베이스의 데이터에 대한 정제가 필요하다. 범부처적으로 분산되어 있는 국가R&D정보를 수집하여 서비스하는 국가과학기술종합정보서비스(NTIS)도 여러 기관에 존재하는 데이터베이스를 연계 통합하여 단일의 데이터베이스를 구축하였다. NTIS의 사례를 통해 체계적인 통합 모델 수립과 정제에 의해 통합된 데이터베이스의 데이터는 그렇지 않은 데이터보다 정확도 측면에서 품질이 제고되었음이 입증되었다.