DOI QR코드

DOI QR Code

Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법

  • Received : 2011.12.29
  • Accepted : 2012.02.13
  • Published : 2012.03.28

Abstract

Determining the similarity between two strings can be applied various area such as information retrieval, spell checker and spam filtering. Similarity calculation between Korean strings based on dynamic programming methods firstly requires a definition of the similarity between phonemes. However, existing methods have a limitation that they use manually set similarity scores. In this paper, we propose a method to automatically calculate inter-phoneme similarity from a given set of variant words using a PAM-like probabilistic model. Our proposed method first finds the pairs of similar words from a given word set, and derives derivation rules from text alignment results among the similar word pairs. Then, similarity scores are calculated from the frequencies of variations between different phonemes. As an experimental result, we show an improvement of 10.1%~14.1% and 8.1%~11.8% in terms of sensitivity compared with the simple match-mismatch scoring scheme and the manually set inter-phoneme similarity scheme, respectively, with a specificity of 77.2%~80.4%.

Keywords

Inter-phoneme Similarity;PAM Matrix;Text Alignment;Word Filtering

References

  1. Gonzalo Navarro, "A Guided Tour to Approximate String Matching," ACM Computing Surveys, Vol.33, No.1, pp.31-88, 2001. https://doi.org/10.1145/375360.375365
  2. 정보통신부, "의미부류별 핵심어매칭기술을 이용한 한국어 및 영어 컨텐츠 유해등급 자동판정 시스템 개발", 2003.
  3. 한국게임산업진흥원, "게임언어 건전화 지침서 연구", 2008.
  4. 노강호, 박근수, 조환규, 장소원, "음소의 분류 체계를 이용한 한글 편집 거리 알고리즘", 정보과학회논문지:시스템 및 이론, 제37권, 제6호, pp.319-367, 2010.
  5. 윤태진, 조환규, "반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템", 한국콘텐츠학회논문지, 제9권, 제12호, pp.113-120, 2009.
  6. 윤태진, 정우근, 조환규, "제한된 한글 입력환경을 위한 음소기반 근사 문자열 검색 시스템", 정보과 학회논문지:소프트웨어 및 응용, 제37권, 제10호, pp.788-801, 2010.
  7. 안희국, 한욱표, 신승호, 양동일, 노희영, "스팸메일 필터링을 위한 한글 변칙어 인식 방법", 한국항행학회논문지, 제15권, 제2호, pp.287-297, 2011.
  8. J. Setubal and J, Meidanis, "Introduction to Computational Molecular Biology," PWS Publishing Company, 1997.
  9. 송영길, 김학수, "다양한 스마트폰 키패드 환경에서 유사 단어 검색을 위한 수정된 편집 거리 계산 방법", 한국콘텐츠학회논문지, 제11권, 제12호, pp.12-18, 2011.

Cited by

  1. An Analysis of the Current State of Marine Sports through the Analysis of Social Big Data: Use of the Social MaxtixTM Method vol.29, pp.2, 2017, https://doi.org/10.13000/JFMSE.2017.29.2.593

Acknowledgement

Supported by : 한국연구재단