국제입찰정보 통합시스템의 설계 및 구현

The Integration System for International Procurement Information Processing

  • 윤종완 (코리아외이즈넛 연구원) ;
  • 이종우 (한림대학교 정보통신공학부) ;
  • 박찬영 (한림대학교 정보통신공학부)
  • 발행 : 2002.02.01

초록

현존하는 상업용 웹 정보검색 시스템들이 전문성을 갖추지 못하고 있는 이유가 검색된 분야별 정보를 통합하고 가공하는 능력이 부족하기 때문이다. 따라서, 단순 검색이 아닌 실제 사용자가 원하는 웹상의 의미정보를 추출하고 가공/통합하는 정보통합시스템의 필요성이 대두되었다. 본 논문에서는 분산된 이질의 웹사이트들에서 제공되는 특정분야의 정보를 추출 및 통합하는 정보통합시스템(TIC: Target Information collector)을 구현하고, 구현된 시스템의 평가결과를 제시한다. 본 논문에서 대상으로 설정한 정보 영역은 국제입찰정보이다. 국제입찰정보는 전 세계 국가의 정부에서 필요로 하는 조달물품 및 서비스에 대한 공개 입찰자료이다. 본 논문에서는 전 세계의 국제입찰 정보 제공 원천 사이트에서 공통 특성 정보를 자동 추출하기 위해 HTML 태그간 패턴을 사용한 정보위치지정 방법을 사용하였으며, 정보추출 및 통합을 위한 프레임워크 설계를 통해 큰 부담 없이 모든 원천사이트별 정보추출 및 통합 코드를 작성할 수 있었다. 또한, 구현된 TIC을 약 8개월 동안 운영한 결과 매우 단순한 기법을 사용하고도 거의 대부분의 중복정보가 제거된 고품질의 국제입찰정보를 수집할 수 있음을 확인하였다. 본 논문이 기여하는 바는 특정 범주에 속하는 공통정보를 추출 및 통합/가공하는 데에 필요한 시스템 프레임워크를 제시했다는 점이다.

The lack of specialties of the existing commercial web search systems stems from the fact that they have no capabilities to extract and gather the meaningful information from each information domain they cover. We are sure, however, that the necessity for the information integration system, not just search system, will be likely to become larger in the future. In this paper, we propose a design and implementation of an information integration system called TIC(target information collector). TIC is able to extract meaningful information from a specific information area in the internet and integrate them for the commercial service. We also show the evaluation results of our implementation. For the experiments we applied our TIC to the international procurement information area. The international procurement information is publicly and freely announced by each government to the world. To automatically extract common properties from the related source sites, we adopt information pointing technique using inter-HTML tag pattern parsing. And through the information integration framework design, we can easily implement a site-specific information integration engine. By running our TIC for about 8 months, we find out it can remove considerable amount of the duplicated information, and as a result, we can obtain high quality international procurement information. The main contribution of this paper is to present a framework design and it's implementation for extracting the information of a specific area and then integrating them into a meaningful one.

키워드

참고문헌

  1. P. M. G. Apers. Identifying internet-related database research. In Proceedings of the Second International EastWest Database Workshop, Klagenfurt, Workshops in Computing, pages 183-193. SpringerVerlag, 1994
  2. S. Chawathe, H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman, and J. Widom. The TSIMMIS Project: Integration of Heterogeneous Information Sources. In Proc. of IPSJ Conference, pages 7-18, 1994
  3. B. Doorenbos, O. Etzioni, and D. Weld. A scalable comparison-shopping agent for the world-wide web. In Proc. of the First Int'l Conf. on Autonomous Agents, pages 39-48, February 1997 https://doi.org/10.1145/267658.267666
  4. Atzeni, P., Mecca, G., and Merialdo, P. Semistructured and structured data in the web: going back and forth. In Proceedings of ACM SIGMOD Workshop on Management of Semi-structured Data, pages 1-9, 1997
  5. C. Knoblock, S. Minton, J. Ambite, N. Ashish, P. Modi, I. Muslca, A. Philpot and S. Tejada, Modeling web sources for information integration. In AAAI '98, 1998
  6. J. Yang, H. Seo, N. Koo, J. Choi, J. Kim, S. Kim, K. Lee, and H. Ham, A More Scalable Comparison Shopping Agent, Engineering of Intelligent Systems(EIS 2000), pp. 766-772, Paisely, Scotland, 2000
  7. Chidlovskii, B., Borghoff, U., and Chevalier, P. Towards sophisticated wrapping of web-based information repositories. In Proceedings of 5th International RIAO Conf., pages 123-135. 1997
  8. Naveen Ashish and Craig A. Knoblock. Semi-automatic wrapper generation for internet information sources. In Proceedings of the Second IFCIS International Conference on Cooperative Information Systems (CoopIS), Charleston, SC, 1997 https://doi.org/10.1109/COOPIS.1997.613813
  9. Microsoft, 'Microsoft Win32 Internet Functions Reference', MSDN Online Web Workshop, 2000
  10. Microsoft, 'ADO Programmer's Guide', MSDN Library, 2000