• Title, Summary, Keyword: 시간정보추출

Search Result 2,048, Processing Time 0.07 seconds

Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents (한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축)

  • Lim, Chae-Gyun;Oh, KyoJoong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts (한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계)

  • Lim, Chae-Gyun;Jeong, Young-Seob;Lee, Young Jun;Oh, Kyo-Joong;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Design of LSTM-based Model for Extracting Relative Temporal Relations for Korean Texts (한국어 상대시간관계 추출을 위한 LSTM 기반 모델 설계)

  • Lim, Chae-Gyun;Jeong, Young-Seob;Lee, Young Jun;Oh, Kyo-Joong;Choi, Ho-Jin
    • 한국어정보학회:학술대회논문집
    • /
    • /
    • pp.301-304
    • /
    • 2017
  • 시간정보추출 연구는 자연어 문장으로부터 대화의 문맥과 상황을 파악하고 사용자의 의도에 적합한 서비스를 제공하는데 중요한 역할을 하지만, 한국어의 고유한 언어적 특성으로 인해 한국어 텍스트에서는 개체간의 시간관계를 정확하게 인식하기 어려운 경향이 있다. 특히, 시간표현이나 사건에 대한 상대적인 시간관계는 시간 문맥을 체계적으로 파악하기 위해 중요한 개념이다. 본 논문에서는 한국어 자연어 문장에서 상대적인 시간표현과 사건 간의 관계를 추출하기 위한 LSTM(long short-term memory) 기반의 상대시간관계 추출 모델을 제안한다. 시간정보추출 연구에는 TIMEX3, EVENT, TLINK 추출의 세 가지 과정이 포함되지만, 본 논문에서는 특정 문장에 대해서 이미 추출된 TIMEX3 및 EVENT 개체를 제공하고 상대시간관계 TLINK를 추출하는 것만을 목표로 한다. 또한, 사람이 직접 태깅한 한국어 시간정보 주석 말뭉치를 대상으로 LSTM 기반 제안모델들의 상대적 시간관계 추출 성능을 비교한다.

  • PDF

Extraction of Eye Region in Consideration for Performance and Accuracy (수행 시간과 정확도를 고려한 얼굴 영상의 눈 영역 추출)

  • Jang, Chang-Hyuk;Park, An-Jin;Jung, Kee-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.269-272
    • /
    • 2006
  • 얼굴 인식의 전처리 단계로써 얼굴의 특징 영역인 눈, 코, 입을 추출하는 방법들이 최근 다양하게 연구되고 있다. 얼굴 영상의 특징 영역을 추출 하는 방법에는 일반적으로 특징 점을 이용한 방법과 에지 정보를 이용한 방법이 있다. 특징 점을 이용한 방법은 높은 정확도를 보이는 반면 느린 수행시간을 보이는 문제점이 있으며, 에지 정보를 이용한 방법은 빠른 수행시간을 보이지만 정확도가 떨어지는 문제점이 있다. 본 논문에서는 정확도와 수행시간을 동시에 향상시킬 수 있는 방법을 제안한다. 빠른 수행 시간을 위해 에지 정보와 에지의 방향성 정보를 이용하여 대략적으로 영역을 추출하여, 잡음에 의해 발생된 에지나 빛에 의해 추출되지 못한 에지에서 생긴 눈 추출의 오류는 추출된 영역의 가로, 세로 비율과 각 영역의 공간 정보를 이용하여 해결한다. 실험 결과에서 85%의 정확도와 평균 0.3초의 수행시간을 보였으며, 에지 정보를 이용한 방법의 문제점인 정확도와 특징 점을 이용한 방법의 문제점인 수행시간을 동시에 향상시킨 결과를 보였다.

  • PDF

Schedule Time Information Extraction System from Itemized Sentences of Korean E-mail (한국어 E-mail의 개조식 부분으로부터 일정의 시간 정보 추출 시스템)

  • Choi, DongHyun;Kim, Eun-Kyung;Shim, Sang-Ah;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.81-85
    • /
    • 2010
  • 최근에 스마트 폰과 같은 모바일 플랫폼의 사용이 증가함에 따라, 모바일 플랫폼에서 사용자의 편의성을 증대시켜주는 시스템 및 프로그램에 대한 요구 사항이 커지고 있다. 본 논문에서는 한국어 E-mail로부터 회의 등의 일정에 관한 정보를 얻어내는 시스템 구조를 제안하고, 그 중 일정의 시간 정보에 대한 구현 및 성능을 제시한다. 본 논문에서는 일정을 서술하기 위해 필요할 것으로 생각되는 12가지의 정보 유형을 정의하였다. 또한, E-mail의 서술 형태를 개조식으로 서술된 부분과 비개조식으로 서술된 부분으로 분류하고, 개조식으로 서술된 부분에 대하여 시간과 관련된 2가지 정보를 추출 하였다. 실험 결과, 일정의 '시작 시간'에 대한 정보 추출의 경우 F-Measure 90.10% 일정의 '종료 시간'에 대한 정보 추출의 경우 F-Measure 84.07%를 달성하였다.

  • PDF

Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking (사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단)

  • Kim Pyung;Myaeng Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.6
    • /
    • pp.564-573
    • /
    • 2006
  • Temporal information plays an important role in natural language processing (NLP) applications such as information extraction, discourse analysis, automatic summarization, and question-answering. In the topic detection and tracking (TDT) area, the temporal information often used is the publication date of a message, which is readily available but limited in its usefulness. We developed a relatively simple NLP method of extracting temporal information from Korean news articles, with the goal of improving performance of TDT tasks. To extract temporal information, we make use of finite state automata and a lexicon containing time-revealing vocabulary. Extracted information is converted into a canonicalized representation of a time point or a time duration. We first evaluated the extraction and canonicalization methods for their accuracy and investigated on the extent to which temporal information extracted as such can help TDT tasks. The experimental results show that time information extracted from text indeed helps improve both precision and recall significantly.

Automatic Recognition and Normalization System of Korean Time Expression using the individual time units (시간의 단위별 처리를 이용한 자동화된 한국어 시간 표현 인식 및 정규화 시스템)

  • Seon, Choong-Nyoung;Kang, Sang-Woo;Seo, Jung-Yun
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.4
    • /
    • pp.447-458
    • /
    • 2010
  • Time expressions are a very important form of information in different types of data. Thus, the recognition of a time expression is an important factor in the field of information extraction. However, most previously designed systems consider only a specific domain, because time expressions do not have a regular form and frequently include different ellipsis phenomena. We present a two-level recognition method consisting of extraction and transformation phases to achieve generality and portability. In the extraction phase, time expressions are extracted by atomic time units for extensibility. Then, in the transformation phase, omitted information is restored using basis time and prior knowledge. Finally, every complete atomic time unit is transformed into a normalized form. The proposed system can be used as a general-purpose system, because it has a language- and domain-independent architecture. In addition, this system performs robustly in noisy data like SMS data, which include various errors. For SMS data, the accuracies of time-expression extraction and time-expression normalization by using the proposed system are 93.8% and 93.2%, respectively. On the basis of these experimental results, we conclude that the proposed system shows high performance in noisy data.

  • PDF

Temporal Information Extraction from Korean News for Event Detection and Tracking (사건 탐지/추적을 위한 시간 정보 추출)

  • Kim, Pyung;Sung, Ki-Youn;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.22-29
    • /
    • 2003
  • 시간정보는 사건 탐지/추적 시스템은 물론 정보 추출, 질의/응답 시스템 등에서 매우 중요한 역할을 한다. 본 연구에서는 한국어 신문 기사를 대상으로 시간 표현을 추출하고 정규화한 후 사건 관련 동사와 연결하는 자동화된 방법들을 제안하였다. 시간 표현을 추출하기 위해서 품사정보로 구축된 패턴과 시간 표현 어휘가 사용되었고, 정규화 과정과 사건 관련 동사와의 연결을 위한 규칙이 만들어졌다. 한국어 신문을 대상으로 제안한 방법의 단계별 평가를 수행하였고, 제안하는 방법의 확장성을 보이기 위해 서로 다른 도메인에도 실험을 하였다.

  • PDF

A Recursive Building Area Extraction Technique for Tiled Aeriel LiDAR Data (타일화된 항공 라이다 데이터로부터의 재귀적 건물영역 추출 기법)

  • Park, Chang-Hoo;Kim, Yoo-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.1453-1456
    • /
    • 2011
  • 타일로 분할된 항공 라이다 데이터로 부터 데이터마이닝 기법을 이용한 지표면 분류 결과에 따라 건물을 포함하는 타일에 대해 적용할 건물영역 추출 기법을 제안한다. 본 기법은 재귀적 경계점 추출 알고리즘과 경계점 연결을 통해 경계선을 형성하고 경계선을 타일의 외벽과 연결해 건물영역의 외곽을 추출한다. 제안된 기법으로 추출된 건물 영역을 실제 항공사진과 비교하여 제시하고 재귀적 경계점 추출 알고리즘의 실행시간을 단축시키기 위해 사용된 지형정보 인덱스의 실행시간 단축 효과 분석이 제시된다.

  • PDF

Performance Improvement of Information Retrieval System by means of Fuzzy Relational Product (퍼지관계곱을 이용한 정보검색시스템의 성능 개선)

  • 김창민;김용기
    • Journal of Korean Institute of Intelligent Systems
    • /
    • v.10 no.3
    • /
    • pp.242-251
    • /
    • 2000
  • 퍼지관계 개념을 응용한 BK-퍼지정보검색기법은 형태론에 입각하는 기존의 정보검색기법과는 달리 문서와 용어의 상대적 의미에 근거한 정보검색 기법이다. 그러나 BK-퍼지정보검색기법은 높은 시간복잡도(time complexity)의 검색 연산을 내재하고 있어 실제 대용량의 정보 검색은 사실상 불가능하다. 본 논문에서는 BK-퍼지검색정보모델의 시간복잡도를 낮추기 위해, 축소용어집합(reduced term set)을 이용한 개선된 BK-퍼지정보검색모델(A-FIRM)을 제안한다. 개선된 BK-FIRM은 시스템 처리시간과 신뢰도 간 상층점(trade-off)을 제공한다. 축소용어집합은 용어집합의 부분집합으로서 검색결과의 신뢰도와 밀접한 관계를 가진다. 동일한 크기의 축소용어집합이 주어질 때, 보다 적절한 용어들로 구성된 축소용어집합이 보다 나은 검색 신뢰도를 이끈다. 따라서 보다 적절한 축소용어집합 구성을 위한 축소용어집합 추출방법이 요구된다. 본 논문에서는 축소용어집합 추출방법을 크게 무작위 추출, 규칙에 의한 추출, 인간에 의한 직관적 추출 방법으로 구분하고 검색결과의 신뢰도 변화 형태를 분석한다.

  • PDF