• Title, Summary, Keyword: 상호참조해결

Search Result 56, Processing Time 0.042 seconds

Coreference Resolution for Korean Pronouns and Definite Noun Phrases (한국어 대명사 및 한정 명사구에 대한 상호참조해결)

  • Park, Cheon Eum;Choi, Kyoung Ho;Lee, Hong Gyu;Lee, Chang Ki
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.61-64
    • /
    • 2014
  • 본 논문은 Stanford의 다 단계 시브(Multi-pass Sieve) 상호참조해결을 기반으로, 한국어에 적용한 한국어 상호참조해결(선행 연구)을 이용하여 한정 명사구에 대한 처리와 확장된 대명사 상호참조해결 방법을 제안한다. 지시 관형사와 명사가 결합하여 형성되는 한정 명사구는 일반 멘션(mention)의 특징과 대명사 속성을 한 번에 갖게 된다. 이렇게 되면, 한정 명사구는 모든 시브(sieve)에서 상호참조를 진행할 수 있게 된다. 따라서 이런 특징으로 한정 명사구를 어떤 관점(멘션 또는 대명사)에서 상호참조해결하는 것이 좋은지 보인다. 또한 이런 한정 명사구의 대명사 속성을 이용하기 위해 문법적 의미적 규칙을 적용할 것을 제안한다. 그 결과, 본 논문의 선행 연구인 한국어 상호참조해결에 비하여 CoNLL 값이 약 0.8%만큼 향상되어 61.45%를 측정하였다.

  • PDF

Korean Co-reference Resolution End-to-End Learning using Bi-LSTM with Mention Features (언급 특질을 이용한 Bi-LSTM 기반 한국어 상호참조해결 종단간 학습)

  • Shin, Giyeon;Han, Kijong;Lee, Minho;Kim, Kuntae;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.247-251
    • /
    • 2018
  • 상호참조해결은 자연언어 문서 내에서 등장하는 명사구 언급(mention)과 이에 선행하는 명사구 언급을 찾아 같은 개체인지 정의하는 문제이다. 특히, 지식베이스 확장에 있어 상호참조해결은 언급 후보에 대해 선행하는 개체의 언급이 있는지 판단해 지식트리플 획득에 도움을 준다. 영어권 상호참조해결에서는 F1 score 73%를 웃도는 좋은 성능을 내고 있으나, 평균 정밀도가 80%로 지식트리플 추출에 적용하기에는 무리가 있다. 따라서 본 논문에서는 한국어 문서에 대해 영어권 상호참조해결 모델에서 사용되었던 최신 모델인 Bi-LSTM 기반의 딥 러닝 기술을 구현하고 이에 더해 언급 후보 목록을 만들어 개체명 유형과 경계를 적용하였으며 품사형태를 붙인 토큰을 사용하였다. 실험 결과, 문자 임베딩(Character Embedding) 값을 사용한 경우 CoNLL F1-Score 63.25%를 기록하였고, 85.67%의 정밀도를 보였으며, 같은 모델에 문자 임베딩을 사용하지 않은 경우 CoNLL F1-Score 67.92%와 평균 정밀도 77.71%를 보였다.

  • PDF

Mention Detection using Pointer Networks (포인터 네트워크를 이용한 멘션탐지)

  • Park, Cheoneum;Lee, Changki
    • 한국어정보학회:학술대회논문집
    • /
    • /
    • pp.152-156
    • /
    • 2016
  • 멘션(mention)은 명사 또는 명사구를 중심어로 가지며, 수식어를 포함하여 어떤 의미를 정의하는 구(chunk)를 구성한다. 문장 내에서 멘션을 추출하는 것을 멘션탐지라 한다. 멘션들 중에서 서로 같은 의미의 멘션들을 찾아내는 것을 상호참조해결이라 한다. 포인터 네트워크는 RNN encoder-decoder 모델을 기반으로, 주어진 입력 열에 대응되는 위치를 출력 결과로 갖는 모델이다. 본 논문에서는 멘션탐지에 포인터 네트워크를 이용할 것을 제안한다. 멘션탐지에 포인터 네트워크를 적용하면 기존의 sequence labeling 문제로는 해결할 수 없었던 중첩된 멘션탐지 문제를 해결할 수 있다. 실험 결과, 본 논문에서 제안한 멘션탐지의 성능이 규칙기반 보다 8%이상 높은 F1 80.75%를 보였으며, 이를 이용한 상호참조해결 성능이 CoNLL F1 52.69%로 규칙기반 멘션탐지를 이용한 상호참조해결에 비하여 2.29% 더 좋은 성능을 보였다.

  • PDF

Mention Detection using Pointer Networks (포인터 네트워크를 이용한 멘션탐지)

  • Park, Cheoneum;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.152-156
    • /
    • 2016
  • 멘션(mention)은 명사 또는 명사구를 중심어로 가지며, 수식어를 포함하여 어떤 의미를 정의하는 구(chunk)를 구성한다. 문장 내에서 멘션을 추출하는 것을 멘션탐지라 한다. 멘션들 중에서 서로 같은 의미의 멘션들을 찾아내는 것을 상호참조해결이라 한다. 포인터 네트워크는 RNN encoder-decoder 모델을 기반으로, 주어진 입력 열에 대응되는 위치를 출력 결과로 갖는 모델이다. 본 논문에서는 멘션탐지에 포인터 네트워크를 이용할 것을 제안한다. 멘션탐지에 포인터 네트워크를 적용하면 기존의 sequence labeling 문제로는 해결할 수 없었던 중첩된 멘션탐지 문제를 해결할 수 있다. 실험 결과, 본 논문에서 제안한 멘션탐지의 성능이 규칙기반 보다 8%이상 높은 F1 80.75%를 보였으며, 이를 이용한 상호참조해결 성능이 CoNLL F1 52.69%로 규칙기반 멘션탐지를 이용한 상호참조해결에 비하여 2.29% 더 좋은 성능을 보였다.

  • PDF

Coreference Resolution for Korean Pronouns using Pointer Networks (포인터 네트워크를 이용한 한국어 대명사 상호참조해결)

  • Park, Cheoneum;Lee, Changki
    • Journal of KIISE
    • /
    • v.44 no.5
    • /
    • pp.496-502
    • /
    • 2017
  • Pointer Networks is a deep-learning model for the attention-mechanism outputting of a list of elements that corresponds to the input sequence and is based on a recurrent neural network (RNN). The coreference resolution for pronouns is the natural language processing (NLP) task that defines a single entity to find the antecedents that correspond to the pronouns in a document. In this paper, a pronoun coreference-resolution method that finds the relation between the antecedents and the pronouns using the Pointer Networks is proposed; furthermore, the input methods of the Pointer Networks-that is, the chaining order between the words in an entity-are proposed. From among the methods that are proposed in this paper, the chaining order Coref2 showed the best performance with an F1 of MUC 81.40 %. The method showed performances that are 31.00 % and 19.28 % better than the rule-based (50.40 %) and statistics-based (62.12 %) coreference resolution systems, respectively, for the Korean pronouns.

Coreference Resolution for Korean Using Random Forests (랜덤 포레스트를 이용한 한국어 상호참조 해결)

  • Jeong, Seok-Won;Choi, MaengSik;Kim, HarkSoo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.535-540
    • /
    • 2016
  • Coreference resolution is to identify mentions in documents and is to group co-referred mentions in the documents. It is an essential step for natural language processing applications such as information extraction, event tracking, and question-answering. Recently, various coreference resolution models based on ML (machine learning) have been proposed, As well-known, these ML-based models need large training data that are manually annotated with coreferred mention tags. Unfortunately, we cannot find usable open data for learning ML-based models in Korean. Therefore, we propose an efficient coreference resolution model that needs less training data than other ML-based models. The proposed model identifies co-referred mentions using random forests based on sieve-guided features. In the experiments with baseball news articles, the proposed model showed a better CoNLL F1-score of 0.6678 than other ML-based models.

Coreference Resolution using Hierarchical Pointer Networks (계층적 포인터 네트워크를 이용한 상호참조해결)

  • Park, Cheoneum;Lee, Changki
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.9
    • /
    • pp.542-549
    • /
    • 2017
  • Sequence-to-sequence models and similar pointer networks suffer from performance degradation when an input is composed of multiple sentences or when the length of the input sentence is long. To solve this problem, this paper proposes a hierarchical pointer network model that uses both the word level and sentence level information to encode input sequences composed of several sentences at the word level and sentence level. We propose a hierarchical pointer network based coreference resolution that performs a coreference resolution for all mentions. The experimental results show that the proposed model has a precision of 87.07%, recall of 65.39% and CoNLL F1 74.61%, which is an improvement of 21.83% compared to an existing rule-based model.

Contextualized Embedding- and Character Embedding-based Pointer Network for Korean Coreference Resolution (문맥 표현과 음절 표현 기반 포인터 네트워크를 이용한 한국어 상호참조해결)

  • Park, Cheoneum;Lee, Changki;Ryu, Jihee;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.239-242
    • /
    • 2018
  • 문맥 표현은 Recurrent neural network (RNN)에 기반한 언어 모델을 학습하여 얻은 여러 층의 히든 스테이트(hidden state)를 가중치 합(weighted sum)을 하여 얻어낸 벡터이다. Convolution neural network (CNN)를 이용하여 음절 표현을 학습하는 경우, 데이터 내에서 발생하는 미등록어를 처리할 수 있다. 본 논문에서는 음절 표현 CNN 기반의 포인터 네트워크와 문맥 표현을 함께 이용하는 방법을 제안하고, 이를 상호참조해결에 적용한다. 실험 결과, 질의응답 데이터셋에서 CoNLL F1 57.88%로 규칙기반에 비하여 11.09% 더 좋은 성능을 보였다.

  • PDF

Mention Detection with Pointer Networks (포인터 네트워크를 이용한 멘션탐지)

  • Park, Cheoneum;Lee, Changki
    • Journal of KIISE
    • /
    • v.44 no.8
    • /
    • pp.774-781
    • /
    • 2017
  • Mention detection systems use nouns or noun phrases as a head and construct a chunk of text that defines any meaning, including a modifier. The term "mention detection" relates to the extraction of mentions in a document. In the mentions, a coreference resolution pertains to finding out if various mentions have the same meaning to each other. A pointer network is a model based on a recurrent neural network (RNN) encoder-decoder, and outputs a list of elements that correspond to input sequence. In this paper, we propose the use of mention detection using pointer networks. Our proposed model can solve the problem of overlapped mention detection, an issue that could not be solved by sequence labeling when applying the pointer network to the mention detection. As a result of this experiment, performance of the proposed mention detection model showed an F1 of 80.07%, a 7.65%p higher than rule-based mention detection; a co-reference resolution performance using this mention detection model showed a CoNLL F1 of 52.67% (mention boundary), and a CoNLL F1 of 60.11% (head boundary) that is high, 7.68%p, or 1.5%p more than coreference resolution using rule-based mention detection.

Korean Coreference Resolution using Stacked Pointer Networks based on Position Encoding (포지션 인코딩 기반 스택 포인터 네트워크를 이용한 한국어 상호참조해결)

  • Park, Cheoneum;Lee, Changki
    • KIISE Transactions on Computing Practices
    • /
    • v.24 no.3
    • /
    • pp.113-121
    • /
    • 2018
  • Position encoding is a method of applying weights according to position of words that appear in a sentence. Pointer networks is a deep learning model that outputs corresponding index with an input sequence. This model can be applied to coreference resolution using attribute. However, the pointer networks has a problem in that its performance is degraded when the length of input sequence is long. To solve this problem, we proposed two contributions to resolve the coreference. First, we applied position encoding and dynamic position encoding to pointer networks. Second, we stack deeply layers of encoder to make high-level abstraction. As results, the position encoding based stacked pointer networks model proposed in this paper had a CoNLL F1 performance of 71.78%, which was improved by 6.01% compared to vanilla pointer networks.