High-Speed Korean Address Searching System for Efficient Delivery Point Code Generation

효율적인 순로코드 발생을 위한 고속 한글 주소검색 시스템 개발

  • 김경환 (서강대학교 전자공학과) ;
  • 이석구 (삼성중공업 콘트롤시스템 연구소) ;
  • 신미영 (한국전자통신연구원) ;
  • 남윤석 (한국전자통신연구원 우정기술연구부 우정자동화)
  • Published : 2001.06.01

Abstract

A systematic approach for interpreting Korean addresses based on postal code is presented in this paper. The implementation is focused on producing the final delivery point code from various types of address recognized. There are two stages in the address interpretation : 1) agreement verification between the recognized postal code and upper part of the address and 2) analysis of lower part of the address. In the agreement verification procedure, the recognized postal code is used as the key to the address dictionary and each of the retrieved addresses is compared with the words in the recognized address. As the result, the boundary between the upper part and the lower part is located. The confusion matrix, which is introduced to correct possible mis-recognized characters, is applied to improve the performance of the process. In the procedure for interpreting the lower part address, a delivery code is assigned using the house number and/or the building name. Several rules for the interpretation have been developed based on the real addresses collected. Experiments have been performed to evaluate the proposed approach using addresses collected from Kwangju and Pusan areas.

실제로 사용되는 주소의 분석을 통해 한글주소의 해석방법을 제안하고, 제안한 주소해석 방법을 이용한 주소 검색시스템의 구현에 대하여 서술한다. 주소 상위 및 하위영역의 일치검증을 각각 순차적으로 수행하는 2단계 과정을 통해 최종 배달점에 대한 순로코드를 발생한다. 우편 번호와 주소 상위영역 일치검증 단계에서는 우편버호를 이용하여 주소사전에서 검색된 주소단어와 인식된 문자 후보들과의 비교를 통해 우편 번호를 검증하게 되며, 주소 상위영역과 주소 하위영역이 분리된다. 주소 상위영역 일치검증 과정의 성능향상을 위해 혼동행렬을 제안하고, 주소 인식결과에 혼동행렬을 적용하여 검증 성공률의 향상을 통해 혼동행렬의 유용성을 확인하였다. 주소 하위영역 검증은 번지정보와 건물명 정보를 이용하여 순로코드를 발생하였다. 부분적으로 완성된 광주와 부산지역의 DPF(Delivery Point File)와 레이블링된 데이터를 이용해 분석 가능한 주소에 대해 높은 정확도를 가지고 순로코드를 발생함을 확인할 수 있었다.

Keywords

References

  1. V. Govindaraju, A. Shekhawat, and S. N. Srihari, 'Interpretation of Handwritten Addresses in US Mail Stream,' Interpretational Conference on Document Analysis and Recognition, IEEE Computer Society Press, pp.291-294, 1993 https://doi.org/10.1109/ICDAR.1993.395729
  2. S. N. Srihari and E. Kuebert, 'Integration of hand-written address interpretation technology into the United States postal service remote computer reader system,' Proceedings of 4th International Conference on Document Analysis and Recognition, pp.892-896, 1997 https://doi.org/10.1109/ICDAR.1997.620640
  3. 한국 주소인식 Workshop, 한국전자통신연구원, Oct 1999
  4. S. Madhvanath, G. Kim, and V. Govindaraju, 'Chain Code Processing for Handwritten Word Recognition,' IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE Computer Society Press, Vol.21, No.9, pp.928-932, 1999 https://doi.org/10.1109/34.790433
  5. G. Kim and V. Govindaraju, 'A Lexicon Driven Approach to Handwritten Word Recognition for Real-time Applications,' IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE Computer Society Press, Vol.19, No.4, pp.366-379, 1997 https://doi.org/10.1109/34.588017
  6. 김민석, 손항응, 최완수, 김수원, '자소 추출 방법을 이용한 고속 한글인식 시스템의 구현,' 전자공학회논문집(B), 제29권 제6호, pp.418-424, 1992
  7. V. Govindaraju, E. Cohen, A. Shekhawat, and S. Srihari, 'Determining the Delivery Point Code on Handwritten Addresses,' Fifth Advanced Technology USPS Conference, pp.321-336, Washington D.C., 1992
  8. W .-J. Yang, Access Schemes for Multi-Attribute-Record Structure and Color-Content-Based Image Retrieval, Ph.D. Thesis, Dept. of Electrical and Computer Engineering, State University of New York at Buffalo, NY, USA
  9. 이성환, 김은순, '주소 및 성명에서의 한글인식을 위한 효율적인 오인식 교정 알고리즘,' 한국정보과학회논문지, 제20권 제5호, pp.729-738, 1993
  10. 김수형, '최소거리 분류 및 사전기반 후처리의 강결합에 의한 필기 한글 주소열의 인식,' 한국정보과학회논문지(B), 제25권 제8호, pp.1195-1205, 1998
  11. 우편번호부, 정보통신부, May 2000
  12. 오일석, 유태웅, 최순만, '문서영상 이진화를 위한 국부 알고리즘,' 한국정보과학회논문지, 제22권 제8호, pp.1203-1212, 1995
  13. 이성환, 김영준, '명도 문자 영상으로부터 지형적 특징 추출을 위한 효과적인 방법,' 한국정보과학회논문지, 제22권 제8호, pp.1203-1212, 1995
  14. 이진수, 권오준, 방승양, '컴퓨터가 인식하기 쉬운 한글 필기 설계,' 한국정보과학회논문지, 제22권 제3호, pp.431-440, 1995
  15. 김민기, 권오성, 권영빈, '모음의 구조적 형태와 조합 규칙에 충실한 한글 문자의 유형분류,' 한국정보과학회논문지, 제25권 제4호, pp.685-695, 1998