DOI QR코드

DOI QR Code

Developing dirty data cleansing service between SOA-based services

SOA 기반 서비스 사이의 오류 데이터 정제 서비스 개발

  • 지은미 (이화여자대학교 컴퓨터학과) ;
  • 최병주 (이화여자대학교 컴퓨터학과) ;
  • 이정원 (아주대학교 정보통신대학 전자공학부)
  • Published : 2007.12.31

Abstract

Dirty Data Cleansing technique so far have aimed to integrate large amount of data from various sources and manage data quality resided in DB so that it enables to extract meaningful information. Prompt response to varying environment is required in order to persistently survive in rapidly changing business environment and the age of limitless competition. As system requirement is recently getting complexed, Service Oriented Architecture is proliferated for the purpose of integration and implementation of massive distributed system. Therefore, SOA necessarily needs Data Exchange among services through Data Cleansing Technique. In this paper, we executed quality management of XML data which is transmitted through events between services while they are integrated as a sole system. As a result, we developed Dirty Data Cleansing Service based on SOA as focusing on data cleansing between interactive services rather than cleansing based on detection of data error in DB already integrated.

현재까지 오류 데이터를 정제하는 기법은 여러 소스로부터 대량의 데이터를 통합하여 데이터베이스에 저장되어 있는 데이터의 품질을 관리함으로써 의미 있는 정보를 추출하기 위함이었다. 급변하는 비즈니스 환경과 무한경쟁 사회에서 지속적으로 생존하려면 환경 변화에 빠르게 대처해야 한다. 최근 시스템의 요구사항이 복잡해짐에 따라 대규모의 분산 시스템을 통합 구축하기 위한 서비스 기반 구조 (Service Oriented Architecture)로 확산되고 있으며, 여기에서도 각 서비스간의 데이터 정제기법을 통한 신뢰성 있는 데이터 교환이 필수적이다. 따라서 본 논문에서는 서비스들이 하나의 시스템으로 통합되는 과정에서 이벤트를 통해 서비스 간에 전송되는 XML데이터의 품질 관리를 수행하여, 이미 통합되어 저장된 데이터베이스 데이터의 오류를 탐지하여 정제하는 것이 아니라 상호 작용하는 서비스간의 데이터 정제에 초점을 두고 SOA를 기반으로 하는 오류 데이터 정제 서비스를 개발한다.

Keywords

References

  1. P. Krogdahl, G. Luef, and C. Steindl, 'Service-Oriented Agility: An initial analysis for the Use of Agile methods for SOA development,' In Proceedings of the 2005 IEEE International Conference on Service Computing(SCC '05). Vol.2, pp.93-100, July, 2005 https://doi.org/10.1109/SCC.2005.86
  2. 이경하, 이규철, '웹 서비스의 표준화 동향과 발전 방향', 한국정보과학회 데이터베이스 연구회지, 제19권 제1호, pp.80-87, March, 2003
  3. M. P. Papazoglou and D. Georgakopoulos, 'Service-Oriented Computing,' Communication of the ACM, Vol.46, No.10, pp.25-28, Oct., 2003
  4. 지은미, 최병주, 이정원, 'SOA에서의 오류 데이터 정제 서비스 개발', 정보처리학회 2007년도 춘계학술발표대회 논문집(상) 우수논문, 제14권 제1호, pp.649-652, 2007
  5. Theodore Johnson, and Tamraparni Dasu, 'Data Quality and Data Cleaning,' Tutorials of 10th SIGKDD, Aug., 2004
  6. T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk, 'Mining Data Structure; Or, How to Build a Data Quality Browser,' In Proceedings of SIGMOD Conf., pp. 240-251, 2002 https://doi.org/10.1145/564691.564719
  7. M. Hernandez and S. Stolfo, 'Real-world data is dirty: data cleansing and the merge/purge problem,' Data Mining and Knowledge Discovery, Vol.2, No.1, pp.9-37, 1998 https://doi.org/10.1023/A:1009761603038
  8. M. Lee, H Lu, T Ling, and Y. Ko., 'Cleansing Data for Mining and Warehousing,' In Proceedings of 10th DEXA, 1999 https://doi.org/10.1007/3-540-48309-8_70
  9. M. Hernandez, R. Miller, and L. Hass, 'Schema Mappings as Query Discovery,' In Proceedings of Intl. Conf. VLDB, 2001
  10. M. M. Breunig, H.-P. Kriegel, R. Ng, J. Sander, 'LOF: Identifying Density-Based Local Outliers,' In Proceedings of SIGMOD Conf., 2000 https://doi.org/10.1145/335191.335388
  11. MonArch, www.00db.co.kr
  12. SLAAM, www.slaam.co.kr
  13. ZipIt, www.sujiewon.co.kr
  14. The AscentialTM Enterprise Integration Suite, www.ascential.com
  15. HummingBird, www.hummingbird.com
  16. Ortiz Jr., Sixto; 'Getting on Board the Enterprise Service Bus,' Published by the IEEE computer Society, pp.15-17, 2007 https://doi.org/10.1109/MC.2007.127
  17. Won Kim, Byoung-Ju Choi, Eui-Kyeoung Hong, Soo-Kyoung Kim, Doheon Lee, 'A Taxonomy of Dirty Data,' The Data Mining and Knowledge Discovery Journal, Vol.7 No.1, pp.81-99, 2003 https://doi.org/10.1023/A:1021564703268
  18. J. W. Lee, E. Y. Moon, and B. J. Choi, 'Data cleansing for Service-Oriented Architecture,' Springer-Verlag, Lecture Notes in Computer Science Vol 3590, pp.87-97, 2005 https://doi.org/10.1007/11545163_9
  19. G. Shankaranarayanan and Y. Cai, 'A Web Services Application for the Data Quality Management in the B2B Networked Environment,' In Proceedings of 38th Hawaii International Conference on System Sciences, IEEE, 2005 https://doi.org/10.1109/HICSS.2005.62