• 제목/요약/키워드: Morpheme Analysis

검색결과 121건 처리시간 0.115초

사용자 사전과 형태소 토큰을 사용한 트랜스포머 기반 형태소 분석기 (A Morpheme Analyzer based on Transformer using Morpheme Tokens and User Dictionary)

  • 김동현;김도국;김철희;신명선;서영덕
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.19-27
    • /
    • 2023
  • 형태소는 한국어에서 의미를 가진 최소단위이기 때문에, 한국어 언어모델의 성능을 높이기 위해서는 정확한 형태소 분석기의 개발이 필요하다. 기존의 형태소 분석기는 대부분 어절 단위 토큰을 입력 값으로 학습하여 형태소 분석 결과를 제시한다. 하지만 한국어의 어절은 어근에 조사나 접사가 부착된 형태이기 때문에 어근이 같은 어절이어도 조사나 접사로 인해 의미가 달라지는 성향이 있다. 따라서 어절 단위 토큰을 사용하여 형태소를 학습하면 조사나 접사에 대한 오분류가 발생할 수 있다. 본 논문에서는 형태소 단위의 토큰을 사용하여 한국어 문장에 내재된 의미를 과악하고, Transformer를 사용한 시퀀스 생성 방식의 형태소 분석기를 제안한다. 또한, 미등록 단어 문제를 해결하기 위해 학습 말뭉치 데이터를 기반으로 사용자 사전을 구축하였다. 실험 과정에서 각 형태소 분석기가 출력 한 형태소와 품사 태그를 함께 정답 데이터와 비교하여 성능을 측정하였으며, 실험 결과 본 논문에서 제시한 형태소 분석기가 기존 형태소 분석기에 비해 성능이 높음을 증명하였다.

Viterbi 검색 기법을 이용한 한국어 음성 언어의 형태소 분석 (Morphological analysis of spoken Korean using Viterbi search)

  • 김병창
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.200-203
    • /
    • 1995
  • This paper proposes a spoken Korean processing model which is extensible to large vocabulary continuous spoken Korean system. The integration of phoneme level speech recognition with natural language processing can support a sophisticated phonological/morphological analysis. The model consists of a diphone speech recognizer, a viterbi dictionaly searcher and a morpheme connectivity information checker. Two-level hierarchical TDNNs recognize newly defined Korean diphones. The diphone sequences are segmented and converted to the most probable morpheme sequences by the Viterbi dictionary searcher. The morpheme sequency are then examined by the morpheme connectivity information checker and the correct morpheme sequence which has the greatest probability is collected. The experiments show that the morphological analysis for spoken Korean can be achieved for 328 Eojeols with 80.6% success rate.

  • PDF

현대 중국어의 삼음사(三音詞)와 현용 한국 삼음절(三音節) 한자어(漢字語)의 동형(同形) 동소어(同素語) 비교 연구 (A Comparative Study of the Trisyllabic Words with same form-morpheme and same meaning in Modern Chinese and the Trisyllabic Korean Words Written in Chinese Characters with same form-morpheme and same meaning)

  • 최금단
    • 비교문화연구
    • /
    • 제25권
    • /
    • pp.743-773
    • /
    • 2011
  • In this research, the writer has done a comparative analysis of 4,791 trisyllabic modern Chinese vocabularies from "a dictionary for trisyllabic modern Chinese word" and the corresponding Korean words written in Chinese characters out of 170,000 vocabularies hereupon that are collected in "new age new Korean dictionar y". Aa a result, we have the total 407 pairs of corresponding group with the following 3 types: 1) Chinese : Korean 3(2) : 3 syllable Chinese characters with completely same form-morpheme and same meaning, use, class (376pairs, 92.38% of 407), 2) Chinese : Korean 3 : 3 syllable Chinese characters with completely same form-morpheme and partly same meaning, use, class (18pairs, 4.42% of 407), 3)Chinese : Korean 3 : 3 syllable Chinese characters with completely same form-morpheme and different meaning, use, class (13pairs, 3.19% of 407).

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

대어휘 음성인식을 위한 의사형태소 분석 시스템의 구현 (Implementation of A Morphological Analyzer Based on Pseudo-morpheme for Large Vocabulary Speech Recognizing)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.102-108
    • /
    • 1999
  • 교착어인 한국어를 대상으로 대용량의 대화체 어휘를 포함하는 연속 음성을 인식하는 데에는 인식단위를 결정하는 것이 매우 중요하다. 본 논문에서는 어절이나 형태소를 사용하는 기존의 음성인식 시스템에서의 난점을 해소하고 새로운 인식단위인 의사형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기와 태거를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 인식의 출력을 인식의 다음 단계인 언어처리부의 처리단위와 일치시킬 수 있으므로 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 시스템은 일반 형태소를 대상으로 하는 시스템과 동일한 수준의 성능을 보였다.

  • PDF

사전 정보와 차트 자료 구조를 이용한 효율적인 형태소 분석기 및 합성기(KoMAS) (An Efficient Korean Morpheme Analyzer and Synthesizer using Dictionary Information and Chart Data Structure)

  • 김정해;이상조
    • 전자공학회논문지B
    • /
    • 제31B권3호
    • /
    • pp.123-131
    • /
    • 1994
  • This paper describes on the analysis of morphemes and it's synthesis being constituted of Korean word phrases. To analyze morphemes, we propose the introduction of "morph" for morpheme features in lexicon and the usage of chart data structures. it controls over the generation of unnecessary morpheme, and extracts every possible morpheme unit in a word phrase which minimized lexicon investigation by using heuristic information. Moreover, to synthesize morphemes, it is composed of every possible analyzed morphemes in word phrases to take advantage of speech and union information which can be obtained for program. Therefore, the systhesis of analyzed morphemes were designed to aid a syntactic analysis next step of natural language processing. This system for analyzing and systhesizing morpheme was to generate a word phrase by unifying syntactic and semantic features of analyzed morphemes in lexicon, and then established by C language of the personal computer.

  • PDF

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅 (Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning)

  • 최맹식;김학수
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • 한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.

한국어-수화 번역시스템을 위한 형태소 변환 (Morpheme Conversion for korean Text-to-Sign Language Translation System)

  • 박수현;강석훈;권혁철
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.688-702
    • /
    • 1998
  • 본 논문에서는 한국어 각 품사별로 형태소 해석 규칙에 대응하는 수화 형태소 생성규칙을 제안한다. 한국어 자연수화는 한국어 자연언어에 비하여 극히 한정된 어휘를 가지며, 문법 요소의 수도 매우 한정적으로 사용되고 있다. 따라서 본 논문에서는 자연스러운 한국어 문장을 대응하는 수화로 변환시키기 위해서 한국어 문법에 대응하는 자연수화 문법을 정의한다. 각 phrase는 한국어 해석 문법과는 별도의 수화 형태소 생성문법을 정의 해야 하며, 이 문법은 형태소 해석/결합 규칙 및 구구조 해석규칙에 적용되고, 이 규칙의 정의로 가장 자연스러운 자연수화를 생성할 수 있게 된다.

  • PDF

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정 (Error Correction in Korean Morpheme Recovery using Deep Learning)

  • 황현선;이창기
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1452-1458
    • /
    • 2015
  • 한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원 작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘 수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, '들/VV'과 '듣/VV'의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

한글 음소 단위 딥러닝 모형을 이용한 감성분석 (Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean)

  • 이재준;권순범;안성만
    • 한국IT서비스학회지
    • /
    • 제17권1호
    • /
    • pp.79-89
    • /
    • 2018
  • Sentiment analysis is a technique of text mining that extracts feelings of the person who wrote the sentence like movie review. The preliminary researches of sentiment analysis identify sentiments by using the dictionary which contains negative and positive words collected in advance. As researches on deep learning are actively carried out, sentiment analysis using deep learning model with morpheme or word unit has been done. However, this model has disadvantages in that the word dictionary varies according to the domain and the number of morphemes or words gets relatively larger than that of phonemes. Therefore, the size of the dictionary becomes large and the complexity of the model increases accordingly. We construct a sentiment analysis model using recurrent neural network by dividing input data into phoneme-level which is smaller than morpheme-level. To verify the performance, we use 30,000 movie reviews from the Korean biggest portal, Naver. Morpheme-level sentiment analysis model is also implemented and compared. As a result, the phoneme-level sentiment analysis model is superior to that of the morpheme-level, and in particular, the phoneme-level model using LSTM performs better than that of using GRU model. It is expected that Korean text processing based on a phoneme-level model can be applied to various text mining and language models.