• Title, Summary, Keyword: 단어 관련성 추정

Search Result 11, Processing Time 0.045 seconds

Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding (단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • 한국어정보학회:학술대회논문집
    • /
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

A probabilistic information retrieval model by document ranking using term dependencies (용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색)

  • You, Hyun-Jo;Lee, Jung-Jin
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.5
    • /
    • pp.763-782
    • /
    • 2019
  • This paper proposes a probabilistic document ranking model incorporating term dependencies. Document ranking is a fundamental information retrieval task. The task is to sort documents in a collection according to the relevance to the user query (Qin et al., Information Retrieval Journal, 13, 346-374, 2010). A probabilistic model is a model for computing the conditional probability of the relevance of each document given query. Most of the widely used models assume the term independence because it is challenging to compute the joint probabilities of multiple terms. Words in natural language texts are obviously highly correlated. In this paper, we assume a multinomial distribution model to calculate the relevance probability of a document by considering the dependency structure of words, and propose an information retrieval model to rank a document by estimating the probability with the maximum entropy method. The results of the ranking simulation experiment in various multinomial situations show better retrieval results than a model that assumes the independence of words. The results of document ranking experiments using real-world datasets LETOR OHSUMED also show better retrieval results.

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Improving Multinomial Naive Bayes Text Classifier (다항시행접근 단순 베이지안 문서분류기의 개선)

  • 김상범;임해창
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.3_4
    • /
    • pp.259-267
    • /
    • 2003
  • Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the Problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.

The Conceptions of Astronomical Distance of Elementary School Teachers (초등학교 교사들의 천문학적 거리에 대한 개념 연구)

  • Jeong, Jin-Woo;Han, Shin
    • Journal of the Korean earth science society
    • /
    • v.31 no.7
    • /
    • pp.827-838
    • /
    • 2010
  • The purpose of this study is to identify the conceptions of elementary school teachers regarding the variation scale about astronomical distance and its accuracy with distance increased. The astronomical distance questionnaire was administered to 69 elementary school teachers, then; three teachers were selected to interview about their conceptions. Results showed that many elementary school teachers overestimated the distance from the Earth to the Moon and to the Sun, and dramatically underestimated the distances to the nearest star and to the nearest galaxy. They inferred astronomical distance with the use of both intuitive (psychological) measure and theoretical (calculative) measure. They well recited the terminology such as AU and a light-year, yet they did not show a good understanding of what the terms exactly means. Some teachers thought that the distance to Neptune is farther than the distance from Earth to the nearest star. There was a considerable variability in the participants' estimates of astronomical distances. Elementary school teachers showed a tendency to overestimate the distance as it gradually increases to the outer solar system.

Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics (온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석)

  • Lee, Heesung;Jin, Yunseon;Kwon, Ohbyung
    • Journal of Intelligence and Information Systems
    • /
    • v.22 no.2
    • /
    • pp.13-31
    • /
    • 2016
  • Despite expectations of short- or long-term positive effects of corporate social responsibility (CSR) on firm performance, the results of existing research into this relationship are inconsistent partly due to lack of clarity about subordinate CSR concepts. In this study, keywords related to CSR concepts are extracted from atypical sources, such as newspapers, using text mining techniques to examine the relationship between CSR and firm performance. The analysis is based on data from the New York Times, a major news publication, and Google Scholar. We used text analytics to process unstructured data collected from open online documents to explore the effects of CSR on short- and long-term firm performance. The results suggest that the CSR index computed using the proposed text - online media - analytics predicts long-term performance very well compared to short-term performance in the absence of any internal firm reports or CSR institute reports. Our study demonstrates the text analytics are useful for evaluating CSR performance with respect to convenience and cost effectiveness.

Study on the Compared between u-Learning and e-Learning based SCORM (SCORM 기반 u-Learning과 e-Learning 비교연구)

  • Choi, Sung;Ryu, Gab-Sang
    • Proceedings of the Korea Society of Information Technology Applications Conference
    • /
    • /
    • pp.495-505
    • /
    • 2006
  • IT기술기반 교육시스템은 인터넷 등장 이전에도 가능성을 인정받아 지속적으로 개발되어 온 분야이며, 교육공학과의 연계로 지식 전날의 이론체계로 각광을 받고 있다. 사이버교유도 인터넷이전부터 다양한 통신방법을 응용하여 개발되었고, 최근 인터넷을 통하여 사이버 교육시스템은 완벽한 기술기반을 갖추게 되였다. 그러나 IT기술의 급격한 변화로 사이버교육시스템은 계속하여 신기술 변화에 적용해야만 한다. 현재 정보통신기술의 변화는 방송 통신망의 융합, 브로드 밴드 네트워킹, 스마트 디바이스의 다양화, 멀티미디어 기술의 고도화로 요약된다. 이 기술의 종합한 작용으로 유비쿼터스 사회의 기반으로 진화되고 있다. 그래서 e-Learning 분야도 기존 인터넷기반 시스템과는 달리 차세대 온라인교육시스템으로 친화되고 있다. IT융합가술 기반의 온라인 교육시스템은 각종 국제표준단체에서 표준안이 제시되고 있다. e-Learning 시스템이란 선기술 기반을 반영한 표준기술을 사용하는 온라인교육시스템을 포괄하는 개념이다. 본 연구에서는 e-Learning 시스템과 유비쿼터스 기술을 반영한 e-Learning을 비교하였다. 그리고 u-Learning 시스템의 기술정립과 EOD(Education On Demand) 시스템에 대하여 연구하였다. 1. u-Learning 정의 정보산업분야를 비롯한 문화, 교육 등 모든 분야에서 유비퀴터스라는 수식어가 붙어 다니고 있다. e- Learning 교육 업계에 따르면 10년 후에는 유비쿼터스는 대중화가 될 것이며, 부가가치 규모는 100조 원에 이를 것으로 추정된다. 그래서 교육산업도 주변 환경이 아날로그 방식에서 IT 기반에 의한 디지털 환경으로 변화되고 있다. 또한 e러닝, T러닝, m러닝, u러닝 등의 용어가 생성되고 있다.키지에어컨에서 사용되고 있는 밀폐형 압축기에 대해서 그림 2에서 나타내고 있는 냉방능력 10tons(120,000Btu/h) 이하를 중심으로 상기의 최근 기술 동향을 간략하게 소개하고자 한다.질표준의 지표성분으로 간주되는 진세노사이드의 절대함량과 그 성분조성 차이에 따른 임상효과의 차별성이 있는지에 대한 검토와, 특히 최근 실험적으로 밝혀지고 있는 사포닌 성분의 장내 세균에 의한 생물전환체의 인체 실험을 통한 효과 검정이 필요하다. 나아가서는 적정 복용량의 설정과 이와 관련되는 생체내 동태 및 생체이용율(bioavilability)에 관한 정보가 거의 없으므로 이것도 금후 검토해야 할 과제로 사료된다. 인삼은 전통약물로서 오랜 역사성과 그동안의 연구결과에 의한 과학성을 가지고 있으므로 건강유지와 병의 예방 및 회복촉진을 위한 보조요법제 또는 기능성 식품으로써의 유용성이 있는 것으로 판단된다. 앞으로 인삼의 활용성 증대를 위해서는 보다 과학적인 임상평가에 의한 안전성 및 유효성 입증과 제품의 엄격한 품질관리의 필요성이 더욱 강조되어야 할 것이다.xyl radical 생성 억제 효과를 보여 주었다. 본 실험을 통하여 BHT 를 제외하고 전반적으로 세포 수준에서의 oxidative stress 에 대한 억제 효과를 확인해 볼 수 있었으며 특히 수용성 항산화제들에서 두드러진 효과를 보여 주었다. 제공하여 내수기반 확충에도 노력해야 할 것 이다.있었다., 인삼이 성장될 때 부분적인 영양상태의 불충분이나 기후 등에 따른 영향을 받을 수 있기 때문에 앞으로 이에 대한 많은 연구가 이루어져야할 것으로 판단된다.태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$<

  • PDF

International Research Trend on Mountainous Sediment-related Disasters Induced by Earthquakes (지진 유발 산지토사재해 관련 국외 연구동향 분석)

  • Lee, Sang-In;Seo, Jung-Il;Kim, Jin-Hak;Ryu, Dong-Seop;Seo, Jun-Pyo;Kim, Dong-Yeob;Lee, Chang-Woo
    • Journal of Korean Society of Forest Science
    • /
    • v.106 no.4
    • /
    • pp.431-440
    • /
    • 2017
  • The 2016 Gyeongju Earthquake ($M_L$ 5.8) (occurred on September 12, 2016) and the 2017 Pohang Earthquake ($M_L$ 5.4) (occurred on November 15, 2017) caused unprecedented damages in South Korea. It is necessary to establish basic data related to earthquake-induced mountainous sediment-related disasters over worldwide. In this study, we analyzed previous international studies on the earthquake-induced mountainous sediment-related disasters, then classified research areas according to research themes using text-mining and co-word analysis in VOSviewer program, and finally examined spatio-temporal research trends by research area. The result showed that the related-researches have been rapidly increased since 2005, which seems to be affected by recent large-scale earthquakes occurred in China, Taiwan and Japan. In addition, the research area related to mountainous sediment-related disasters induced by earthquakes was classified into four subjects: (i) mechanisms of disaster occurrence; (ii) rainfall parameters controlling disaster occurrence; (iii) prediction of potential disaster area using aerial and satellite photographs; and (iv) disaster risk mapping through the modeling of disaster occurrence. These research areas are considered to have a strong correlation with each other. On the threshold year (i.e., 2012-2013), when cumulative number of research papers was reached 50% of total research papers published since 1987, proportions per unit year of all research areas should increase. Especially, the proportion of the research areas related to prediction of potential disaster area using aerial and satellite photographs is highly increased compared to other three research areas. These trends are responsible for the rapidly increasing research papers with study sites in China, and the research papers examined in Taiwan, Japan, and the United States have also contributed to increases in all research areas. The results are could be used as basic data to present future research direction related to mountainous sediment-related disasters induced by earthquakes in South Korea.

재료 동적영향을 고려한 주냉각재 배관 LBB 적용시 Dynamic Strain Aging의 영향 분석

  • 양준석;박치용;정우태;유기완;김진원
    • Proceedings of the Korean Nuclear Society Conference
    • /
    • /
    • pp.305-311
    • /
    • 1998
  • 최근들어 고려된 LBB(Leak Before Break) 적용요건중 동적파괴시힘 절차에는 울진 3&4호기 이후 파단전누설개념이 적용되는 배관이 탄소강으로 제작될 경우. 이 배관이 Dynamic Strain Aging (DSA)에 의해 파괴저항치가 감소되지 않는다는 것이 정량적으로 입증되지 않는 한, 동 배관의 파괴 물성치 결정시 DSA의 영향이 고려되어야 하며, DSA 영향을 평가하기 위해서는 동적과괴시험이 수행되어야 함을 요건화 하고 있다. 본 연구에서는 DSA 효과에 의한 파괴저항(J-R) 특성의 저하가차세대원전 원자로냉각재배관 파단전누설개넘(LBB) 적용시 설계 안전여유도에 영향을 미치지 않는 정도임을 평가하는데 있다. 따라서 ASME Section III에서 탄소강으로 분류하고 있는 강종별 파괴인성 변화를 고찰하고, 차세대원전 주냉각재배관 재료인 SA508 Class la의 최대 파괴인성 감소치를 예측하여, 울진 3&4호기에서 측정된 엘보우용 SA516-Gr.70 강의 DSA 영향 평가 결과와 비교 분석하여 차세대원전 주냉각재배관의 DSA영향을 평가하였다. 도출된 결론으로는 DSA 영향을 고려한 SA508 Class la의 J 및 dJ/dA 값은 극히 보수적으로 추정할 때 50% 이상 감소하는 것으로 예측된다. 이러한 DSA 영향을 고려하였을 경우 배관재 모재의 파괴인성치는 Weld-SAW의 J/T 값 수준으로 감소하였다. 그러나 현 LRB 해석이 가장 낮은 J/T값을 갖는 Weld-SAW Auto의 균열길이 2a인 J/T선도에 의거하여 수행되고 있다는 점을 고려한다면 비록 DSA가 배관재에 영향을 주는 가장 보수적인 값(J 및 dJ/dA값을 50% 이상)을 사용한다고 하더라도 차세대원전 LBB 적용에 문제가 되지 않음을 알 수 있다. 즉 차세대원자로 주냉각재배관에 LBB를 적용하는데는 DSA 영향은 상대적으로 중요하지 않다는 결론을 얻었다. 표면에 수소화물이 농축되어 있는 hydride layer가 형성됨을 관찰하였으며 ~5,000ppm 이상의 경우에는 수소화물의 방향성이 random하였으며 특히, ZIRLO$^{TM}$ 시편의 경우에서는 원주방향으로 길게 이어진 수소화물과 기계적 성질에 치명적인 반경방향의 수소화물이 평행하게 배열된 것을 관찰하였다.하였을 때는 Li$_2$O의 첨가에 의해 치밀화가 주로 일어났고, 반면에 $N_2$-7vol.%H$_2$ 분위기에서 소결하면 Li$_2$O의 첨가에 의해 작은 기공은 소멸되고 큰 기공이 생성되었다.지나치게 모국어의 영향만 강조하고 다른 요인들에 대해서는 다분히 추상적인 언급으로 끝났지만 이 분석을 통 해서 배경어, 목표어, 특히 중간규칙의 역할이 괄목할 만한 것임을 가시적으로 관찰할 수 있 다. 이와 같은 오류분석 방법은 학습자의 모국어 및 관련 외국어의 음운규칙만 알면 어느 학습대상 외국어에라도 적용할 수 있는 보편성을 지니는 것으로 사료된다.없다. 그렇다면 겹의문사를 [-wh]의리를 지 닌 의문사의 병렬로 분석할 수 없다. 예를 들어 누구누구를 [주구-이-ν가] [누구누구-이- ν가]로부터 생성되었다고 볼 수 없다. 그러므로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성요 소를 지닌 병렬적 합성어([$[W1]_{XO-}$ $[W1]_{XO}$ ]$_{XO}$)로

  • PDF