DOI QR코드

DOI QR Code

국어대사전의 표제어에 나타나는 한자 정보

Hanja Information in the Entries of Korean Unabridged Dictionary

  • 김철수 (서남대학교 컴퓨터정보통신학과)
  • 투고 : 2009.12.15
  • 심사 : 2010.01.14
  • 발행 : 2010.04.28

초록

한글과 한자가 혼합되어 나타나는 분야의 언어정보처리를 수행하기 위해서는 한글 및 한자 정보를 동시에 지원할 수 있는 전자 사전이 요구된다. 본 논문에서는 국어대사전의 표제어에 나타나는 한자 통계 정보에 대하여 고찰하였다. 대상 정보는 KSC-5601 코드에 기초하여 엔트리에 한자가 포함된 엔트리 수, 엔트리에 나타나는 한자의 음과 훈의 출현빈도 수, 품사별 한자 출현빈도수, 엔트리당 평균 출현 한자 수 등이다. 440,594개의 표제어 중 303,951개에서 한 글자 이상의 한자가 나타나 68.99%의 표제어에서 한자가 출현 하였다. 440,594개의 표제어에서 858,595글자의 한자를 포함하고 있어 표제어 당 평균 1.95개의 한자가 출현하였다. 표제어의 평균 음절길이 3.56이고 1.95개의 한자가 출현하므로 표제어를 구성하는 글자 중 54.78%가 한자임을 알 수 있다. 4,888개의 한자 코드 중 한번 이상 출현한 한자는 4,660개이며, 228개의 한자는 한 번도 출현하지 않았다. 4,000번 이상 출현하는 한자는 5개였다. 엔트리에 출현하는 858,595개의 한자에 대응하는 한글 음은 471개였다.

키워드

언어정보처리;전자사전;국어대사전;한자통계정보

참고문헌

  1. 유진희, 이종혁, 이근배, "형태소 분석과 언어 평가를 이용한 문자인식 후처리", 정보과학회 논문지(B), Vol.22, No.6, pp.880-891, 1995.
  2. 강승식, "음절정보와 복수어 단어 정보를 이용한 한국어 형태소 분석", 서울대학교 공학박사 학위 논문, 1993.
  3. 국립국어연구원, 표준국어대사전, 두산동아출판사, 1999.
  4. 송재소, "한국의 한자교육", 새국어생활 Vol.9. No.2, pp.125-144, 1999.
  5. 이용주, "한자 정책 현안으로서의 한자 폐지", 국어 생활, 90 봄(20호), pp.11-31, 1990.
  6. 박양규, "국어정책", 국어학연감, Vol.2000, pp.21-39, 2000.
  7. 박천서, "한글 專用 정책과 그 功過", 어문 연구, Vol.27 No.2, 1999.
  8. 김영환, "한자 혼용론을 논박함 한글 전용론의 깊은뜻", 배달말학회 논문지, No.41, pp.33-52, 2007.
  9. 심재기 "국한자 혼용의 타당성에 관한 연구", 관악어문연구, Vol.23, No.1, pp.5-39, 1998.
  10. 김철수, 김양범, "대용량 전자사전 구축을 위한 국어 대사전의 통계정보", 한국콘텐츠학회 논문지(B), Vol.7, No.6, pp.60-68, 2007. https://doi.org/10.5392/JKCA.2007.7.6.060
  11. 최주열, "한자 교육 방법에 관한 고찰", 한글말 교육 논문지, Vol..5, pp.145-174. 1994.
  12. 오미선, "漢字環境의 實態와 學習.敎育", 일본연구, No.21, 2003.