• Title, Summary, Keyword: 자연어처리

Search Result 604, Processing Time 0.037 seconds

Automatic Text Summarization with Lexical Clustering (어휘 클러스터링을 이용한 자동 문서 요약)

  • 김건오;고영중;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.463-465
    • /
    • 2002
  • 자동 문서 요약 시스템은 문서내 담겨있는 정보를 최대만 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 어휘를 자동으로 클러스터링하여 문서 대표어를 찾고, 이를 제목과 조합하여 요약을 수행하는 시스템을 제안한다. 특히 이 시스템은 제목이 없는 문서도 요약을 수행할 수 있는 장점이 있다. 비교시스템으로는 제목, 위치, 빈도를 이용만 시스템을 구축하여 사용하였으며 30%, 10%, 그리고 4문장 요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF

STEER Inverted File Structure for Dynamic Document Insertion/Deletion (문서의 동적 삽입 삭제를 위한 STEER 역파일 구조)

  • 김남일;박영찬;주종철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.174-176
    • /
    • 1998
  • 역파일 구조(inverted file structure)는 검색 속도가 빠르기 때문에 정보검색 시스템의 색인정보 하부 저장구조로 널리 이용되지만 문서의 동적 삭제는 어려운 형태이다. 본 논문에서는 기존역파일 구조에 문서마다 색인어의 포스팅 레코드를 기록한 목록을 유지함으로써 문서의 동적 삭제가 용이하고, 위치정보를 포스팅 레코드에서 분리하여 위치 검색이 효율적인 역파일 구조를 설계한다. 설계된 역파일 구조는 STEER(Structured Entity Element Retrieval) 정보검색 시스템에서 구현되었다.

  • PDF

Direction of Three Dimensional Graphics Software in Desktop PC (PC 환경에서의 3차원 그래픽스 소프트웨어 동향)

  • Jang, Ho-Uk;Baek, Nak-Hun;Jeon, Mi-Seon;Lee, Ui-Taek
    • Electronics and Telecommunications Trends
    • /
    • v.11 no.4
    • /
    • pp.205-220
    • /
    • 1996
  • 본 고에는 현재 산업계와 실생활에 전반적으로 큰 영향을 미치고 있는 3차원 그래픽스의 세계적인 개발 동향과 전망을 PC환경을 중심으로 분석하고 상용 3차원 그래픽스 소프트웨어들이 제공하는 기능을 분석하여, 향후 첨단 영상물 제작에 필요한 3차원 그래픽스 소프트웨어가 갖추어야 할 개발 전략과 요구 사항을 제시하고자 한다.

Automatic Text Summarization with Two Step Sentence Extraction (2단계 문장 추출방법을 이용한 자동 문서 요약)

  • 정운철;고영중;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.910-912
    • /
    • 2004
  • 자동 문서 요약 시스템은 문서내에 담겨있는 정보를 최대한 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 문서 요약을 크게 2단계로 나누어서 수행한다. 문장내 요약본으로써의 불필요한 문장을 미리 제거하고 이에 더해 다양한 통계적 방법의 여러 장점들을 수용함으로써 보다 나은 성능 향상을 얻을 수 있었다. 비교시스템으로는 제목, 위치, 빈도, 도합유사도, 어휘 클러스터링을 이용한 시스템을 구축하여 사용하였으며 30%, 10% 문장요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF

Trend Review of Video Composing System (영상 합성 시스템 동향 분석)

  • Jeon, Mi-Seon;Lee, Man-Jae;Jang, Ho-Uk;Lee, Ui-Taek
    • Electronics and Telecommunications Trends
    • /
    • v.12 no.1
    • /
    • pp.27-42
    • /
    • 1997
  • 영상 합성 기술이란 영화 및 비디오 제작에 있어 비디오 화면을 다양한 효과를 사용하여 편집하는 기술이다. 비디오 분야에서 디지털 기술이 도입되어 사용된 이 기술은 영상 산업을 급격히 변화시키는 응용 기술의 하나로 본 고에서는 이 분야에서 현재 사용되는 시스템의 특징과 그러한 시스템의 공통된 기술을 분석하여 이 분야의 기술 개발에 활용하고자 한다.

Speech Recognition in the Pager System displaying Defined Sentences (문자출력 무선호출기를 위한 음성인식 시스템)

  • Park, Gyu-Bong;Park, Jeon-Gue;Suh, Sang-Weon;Hwang, Doo-Sung;Kim, Hyun-Bin;Han, Mun-Sung
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.158-162
    • /
    • 1996
  • 본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

  • PDF

Word Representation Analysis of Bio-marker and Disease Word (바이오 마커와 질병 용어의 단어 표현 분석)

  • Youn, Young-Shin;Nam, Kyung-Min;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.165-168
    • /
    • 2015
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다.

  • PDF

A Study on Natural Language Document and Query Processor for Information Retrieval in Digital Library (디지털 도서관 환경에서의 정보 검색을 위한 자연어 문서 및 질의 처리기에 관한 연구)

  • 윤성희
    • Journal of the Korea Computer Industry Society
    • /
    • v.2 no.12
    • /
    • pp.1601-1608
    • /
    • 2001
  • Digital library is the most important database system that needs information retrieval engine for natural language documents and multimedia data. This paper describes the experimental results of information retrieval engine and browser based on natural language processing. It includes lexical analysis, syntax processing, stemming, and keyword indexing for the natural language text. With the experimental database ‘Earth and Space Science’ that has lots of images and titles and their descriptive text in natural language, text-based search engine was tested. Combined with content-based image search engine, it is expected to be a multimedia information retrieval system in digital library

  • PDF

Natural Language Generation Using SC-GRU Encoder-Decoder Model (SC-GRU encoder-decoder 모델을 이용한 자연어생성)

  • Kim, Geonyeong;Lee, Changki
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.167-171
    • /
    • 2017
  • 자연어 생성은 특정한 조건들을 만족하는 문장을 생성하는 연구로, 이러한 조건들은 주로 표와 같은 축약되고 구조화된 의미 표현으로 주어지며 사용자가 자연어로 생성된 문장을 받아야 하는 어떤 분야에서든 응용이 가능하다. 본 논문에서는 SC(Semantically Conditioned)-GRU기반 encoder-decoder모델을 이용한 자연어 생성 모델을 제안한다. 본 논문에서 제안한 모델이 SF Hotel 데이터에서는 0.8645 BLEU의 성능을, SF Restaurant 데이터에서는 0.7570 BLEU의 성능을 보였다.

  • PDF

Improving Korean Part-of-Speech Tagging Using The Lexical Specific Classifier (어휘별 분류기를 이용한 한국어 품사 부착의 성능 향상)

  • Choi, Won-Jong;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.133-139
    • /
    • 2006
  • 한국어 형태소 분석 및 품사 부착을 위해 지금까지 다양한 모델들이 제안이 되었으며 어절단위 평가로 95%를 넘는 성능을 보여주는 자동 태거가 보고 되었다. 하지만 형태소 분석 및 품사 부착은 모든 자연어처리 시스템의 성능에 큰 영향을 미치므로 작은 오류도 중요하다. 본 연구에서는 대상 어절의 주변 형태소의 어휘와 품사 자질, 그리고 어절 자질을 이용하여 분류기를 학습한 후 자동 태거의 품사 부착 결과를 입력으로 받아 후처리 하는 어휘별 분류기를 제안한다. 실험 결과 어휘별 분류기를 이용한 후처리만으로 어절단위 평가 6.86%$(95.251%{\rightarrow}95.577%)$의 오류가 감소하는 성능향상을 얻었으며, 기존에 제안된 품사별 자질을 이용한 후처리 방법과 순차 결합할 경우 16.91%$(95.251%{\rightarrow}96.054%)$의 오류가 감소하는 성능 향상을 얻을 수 있었다. 특히 본 논문에서 제안하는 방법은 형태소 어휘까지 정정할 수 있기 때문에 품사별 자질을 이용한 후처리 방법의 성능을 더욱 향상시킬 수 있다.

  • PDF