• 제목/요약/키워드: KorLex

검색결과 19건 처리시간 0.016초

한국어 수분류사 어휘의미망 KorLexClas 1.5 (KorLexClas 1.5: A Lexical Semantic Network for Korean Numeral Classifiers)

  • 황순희;권혁철;윤애선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권1호
    • /
    • pp.60-73
    • /
    • 2010
  • 본 연구의 목적은 한국어 수분류사 체계를 설정하고, 수분류사와 공기명사 간 의미관계 정보를 제공하는 한국어 수분류사 어휘의미망 "KorLexClas 1.5"의 정보구조와 구축방식을 소개하는 데 있다. KorLex 명사, 동사, 형용사, 부사가 영어 워드넷(Princeton WordNet)을 기반으로 참고구축 방식으로 개발된 것에 비해, KorLexClas 1.0버전과 이를 확장한 1.5버전은 직접구축 방식으로 개발하였다는 점에서, 수분류사의 계층구조와 언어단위 간 의미관계 설정은 매우 방대한 시간과 정교한 구축 방식을 요구한다. 따라서 작업의 효율성을 기함과 동시에, 구축된 어휘의미망의 신뢰성 및 확장성을 높이기 위해, (1) 다양한 기구축 언어자원을 활용하되 상호 검증하는 절차를 거치고, (2) 부분문장 분석방법을 이용하여, 수분류사 및 공기명사 목록을 확장하며, (3) 언어학적 준거를 기준으로 수분류사의 계층구조를 설정하고, (4) 수분류사와 공기명사 간 의미관계 정보를 제공하되 확장성을 확보하기 위해, KorLexNoun 1.5에 '최하위 공통상 위노드(LUB : Least Upper Bound)'를 설정하는 방식을 택한다. 이러한 특성을 가진 KorLexClas 1.5는 기계번역을 비롯한 한국어정보처리의 제 분야에 응용될 수 있다.

세종 의미 부류와 KorLex 명사 어휘 의미망 자동 맵핑 (Automatic Mapping of Korean Wordnet "KorLex" to Semantic Classes of Sejong Dictionary)

  • 소길자;윤애선;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-96
    • /
    • 2009
  • 인간이 가진 개념을 지식베이스화하려는 시도 중 하나로 의미망이 구축되고 있다. 한국어를 대상으로 한 어휘 의미망 중 프린스턴 대학의 WordNet을 대역한 KorLex는 1,2단계에서 한국어 어휘의미의 특성을 반영하여 개념 및 의미구조를 재구조화하고 있다. 그러나 현재 KorLex의 동의어 집합을 구성하는 어휘 의미에는 논항정보를 따로 구성할 수 없었다. 본 연구는 세종 전자 사전 격틀정보내의 선택제약조건(selectional restriction)으로 사용되고 있는 의미 부류와 KorLex의 명사 어휘 의미망을 자동 맵핑하는 방안을 제안함으로써 KorLex에서 세종 전자 사전 격틀정보를 활용할 수 있는 가능성을 제공한다.

  • PDF

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 -세종의미부류와 KorLexNoun 1.5- (Mapping Heterogenous Hierarchical Concept Classifications for the HLP Applications -A case of Sejong Semantic Classes and KorLexNoun 1.5-)

  • 배선미;임경업;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.6-13
    • /
    • 2009
  • 본 연구에서는 인간언어공학에서의 활용을 위해 세종전자사전의 의미부류와 KorLexNoun 1.5의 상위노드 간의 사상을 목표로 전문가의 수작업에 의한 세밀한 사상 방법론(fine-grained mapping method)을 제안한다. 또한 이질적인 두 이종 자원 간의 사상에 있어 각 의미체계의 이질성으로 인해 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안을 제안한다. 본 연구는 세종의미부류체계가 밝히고자 했던 한국어의 의미구조와, Prinston WordNet을 참조로 하여 KorLexNoun에 여전히 영향을 미치고 있는 영어 의미구조를 비교함으로써 공통점과 차이점을 파악할 수 있고, 이를 바탕으로 언어 독립적인 개념체계를 구축하는 데 기여할 수 있다. 또한 향후 KorLex의 용언에 기술되어 있는 문형정보와 세종 전자사전의 용언의 격틀 정보를 통합 구축하여 구문분석에서 이용할 때, 세종 의미부류와 KorLexNoun의 상위노드를 통합 구축함으로써 논항의 일반화된 선택제약규칙의 기술에서 이용될 수 있다. 본 연구에서 제안된 사상방법론은 향후 이종 자원의 자동 사상 연구에서도 크게 기여할 것이다. 아울러 두 이종 자원의 사상을 통해 두 의미체계가 지닌 장점을 극대화하고, 동시에 단점을 상호 보완하여 보다 완전한 언어자원으로써 구문분석이나 의미분석에서 이용될 수 있다.

  • PDF

Automatic Mapping Between Large-Scale Heterogeneous Language Resources for NLP Applications: A Case of Sejong Semantic Classes and KorLexNoun for Korean

  • Park, Heum;Yoon, Ae-Sun
    • 한국언어정보학회지:언어와정보
    • /
    • 제15권2호
    • /
    • pp.23-45
    • /
    • 2011
  • This paper proposes a statistical-based linguistic methodology for automatic mapping between large-scale heterogeneous languages resources for NLP applications in general. As a particular case, it treats automatic mapping between two large-scale heterogeneous Korean language resources: Sejong Semantic Classes (SJSC) in the Sejong Electronic Dictionary (SJD) and nouns in KorLex. KorLex is a large-scale Korean WordNet, but it lacks syntactic information. SJD contains refined semantic-syntactic information, with semantic labels depending on SJSC, but the list of its entry words is much smaller than that of KorLex. The goal of our study is to build a rich language resource by integrating useful information within SJD into KorLex. In this paper, we use both linguistic and statistical methods for constructing an automatic mapping methodology. The linguistic aspect of the methodology focuses on the following three linguistic clues: monosemy/polysemy of word forms, instances (example words), and semantically related words. The statistical aspect of the methodology uses the three statistical formulae ${\chi}^2$, Mutual Information and Information Gain to obtain candidate synsets. Compared with the performance of manual mapping, the automatic mapping based on our proposed statistical linguistic methods shows good performance rates in terms of correctness, specifically giving recall 0.838, precision 0.718, and F1 0.774.

  • PDF

이종 개념체계의 상호보완방안 연구 - 세종의미부류와 KorLexNoun 1.5 의 사상을 중심으로 (Cross-Enrichment of the Heterogenous Ontologies Through Mapping Their Conceptual Structures: the Case of Sejong Semantic Classes and KorLexNoun 1.5)

  • 배선미;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권1호
    • /
    • pp.165-196
    • /
    • 2010
  • The primary goal of this paper is to propose methods of enriching two heterogeneous ontologies: Sejong Semantic Classes (SJSC) and KorLexNoun 1.5 (KLN). In order to achieve this goal, this study introduces the pros and cons of two ontologies, and analyzes the error patterns found during the fine-grained manual mapping processes between them. Error patterns can be classified into four types: (1) structural defectives involved in node branching, (2) errors in assigning the semantic classes, (3) deficiency in providing linguistic information, and (4) lack of the lexical units representing specific concepts. According to these error patterns, we propose different solutions in order to correct the node branching defectives and the semantic class assignment, to complement the deficiency of linguistic information, and to increase the number of lexical units suitably allotted to their corresponding concepts. Using the results of this study, we can obtain more enriched ontologies by correcting the defects and errors in each ontology, which will lead to the enhancement of practicality for syntactic and semantic analysis.

  • PDF

한국어 어휘의미망 KorLex 1.5의 구축방법론과 정보구조 (Methodologies for Constructing KorLex 1.5 (a Korean WordNet) and its Semantic Structure)

  • 윤애선;권혁철;이은령;황순희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.42-47
    • /
    • 2008
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목 받고 다양한 방식으로 활용되고 있다. 본고는 PWN을 참조 모델로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex은 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

  • PDF

한국어 어휘의미망 "KorLex 1.5"의 구축 (Construction of Korean Wordnet "KorLex 1.5")

  • 윤애선;황순희;이은령;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.92-108
    • /
    • 2009
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목받고 다양한 방식으로 활용되고 있다. 이 논문은 PWN을 참조 모텔로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex는 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화 (Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex)

  • 소길자;이승희;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.405-414
    • /
    • 2011
  • 국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.

선택 제약 명사의 의미 범주 정보를 이용한 용언의 문맥 의존 오류 검사 및 교정 (The Detection and Correction of Context Dependent Errors of The Predicate using Noun Classes of Selectional Restrictions)

  • 소길자;권혁철
    • 한국정보통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.25-31
    • /
    • 2014
  • 현재 실용화된 국내 문법 검사기는 경험적으로 구축된 오류 결정 규칙을 이용해 주위의 문맥을 보고 문법 오류를 판단하는 문맥 의존 오류를 처리하고 있다. 그러나 기존 문법 검사기의 오류 결정 규칙은 어휘 수준으로 구축되어 있어 검사기의 재현율이 낮다. 따라서 어휘대신 어휘 범주 정보를 사용하여 오류 결정 규칙을 일반화할 필요가 있다. 본 논문에서는 검사단어가 용언일 때 선택 제약 명사의 의미 범주를 국내에서 개발된 어휘의미망 KorLex에서 TCM과 MDL을 이용해 추출하고 추출된 의미 범주를 이용해 용언의 오류 결정 규칙을 일반화하는 방법을 제안한다.

한국어 동사의 어휘의미망 구축을 위한 중립동사의 의미분할 (Word Sense Distinction of Middle Verbs for Korean Verb Wordnet)

  • 이은령;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권2호
    • /
    • pp.23-48
    • /
    • 2005
  • This study aims to discuss the word sense distinction of Korean middle verbs for restructuring KorLexVerb 1.0. Despite the duality of its meaning and syntactic structure, the word senses of middle verb are not clearly distinguished in current dictionaries. The underspecification causes very often mismatches that a same Korean word sense is used for two different English verb senses. A close examination on the syntactic and semantic properties of middle verb shows us that the word sense distinction and the reconstruction of hierarchical structure are indispensable. Finally, by doing this fine grained word sense distinction, we propose an alternative way of classification and description of the verb polysemy for KorLexVerb 1.0 as well as for dictionary-like language resources.

  • PDF