• 제목, 요약, 키워드: 단어 관련성 추정

검색결과 11건 처리시간 0.034초

단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출 (Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding)

  • 유홍연;이승우;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국어정보학회:학술대회논문집
    • /
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색 (A probabilistic information retrieval model by document ranking using term dependencies)

  • 유현조;이정진
    • 응용통계연구
    • /
    • v.32 no.5
    • /
    • pp.763-782
    • /
    • 2019
  • 텍스트 문서 집합에 대한 정보검색에서는 주어진 질의에 부합하는 각 문서의 적합도 확률을 계산하고 이 확률이 높은 것부터 낮은 순으로 문서 순위를 정하여 사용자에게 제공한다, 각 문서의 적합도 확률 계산에 많이 사용되는 모형은 단어들이 확률적으로 독립이라는 가정 하에 확률을 추정한다. 이 모형은 단어들의 결합 확률을 계산하는 것이 현실적으로 어렵다는 점에서 많이 이용되고 있지만 질의에 사용되는 단어들이 대개 서로 관련성을 가지고 있다는 사실을 고려하고 있지 않다. 본 논문에서는 단어 자질들의 의존 구조를 고려하여 문서의 적합도 확률을 계산하기 위하여 단어들의 결합 패턴의 확률을 다항분포 모형으로 가정하고, 최대 엔트로피 방법으로 확률을 추정하여 문서 순위를 매기는 정보검색 모형을 제안한다. 여러 가지 다항분포 상황에서 시뮬레이션 실험을 한 결과 변수들의 독립을 가정한 모형보다 더 우수한 추정 결과를 보여 준다. 실제 LETOR OHSUMED 데이터 이용한 문서 순위 매기기 실험의 결과도 더 나은 검색 결과를 보여 준다.

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

다항시행접근 단순 베이지안 문서분류기의 개선 (Improving Multinomial Naive Bayes Text Classifier)

  • 김상범;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • v.30 no.3_4
    • /
    • pp.259-267
    • /
    • 2003
  • 단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.

초등학교 교사들의 천문학적 거리에 대한 개념 연구 (The Conceptions of Astronomical Distance of Elementary School Teachers)

  • 정진우;한신
    • 한국지구과학회지
    • /
    • v.31 no.7
    • /
    • pp.827-838
    • /
    • 2010
  • 본 연구의 목적은 현직 초등학교 교사들의 천문학적 거리 개념을 확인하고 천문학적 거리에 대한 편차 규모와 천문학적 거리를 점점 확대 시켰을 때 정확성을 알아보기 위한 것이다. 경기도 소재 초등학교 교사 69명을 대상으로 천문학적 거리 관련 질문지를 배포하여 결과를 분석한 후 3명을 임의 추출하여 그들이 작성한 질문지를 바탕으로 인터뷰를 실시하여 그들의 천문학적 거리 개념을 분석하였다. 많은 초등학교 교사들이 지구와 달, 태양 사이의 거리를 과대 평가하였고, 항성 및 은하까지의 거리는 매우 과소평가하였으며, 천문학적 거리를 이론적(계산적) 척도와 직관적(심리적) 척도를 활용하여 추정하였다. 그들은 AU, 광년과 같은 단어를 익히 들어 잘 알고 있으나 그 의미를 정확하게 이해하지 못하는 사례도 있었으며, 지구에서 해왕성까지의 거리가 항성까지 거리 보다 더 멀다고 인식하는 사례도 있었다. 천문학적 거리를 추정할 때 상당한 변이성이 존재하며, 태양계 내에서 태양계 밖에 존재하는 천체로 거리를 늘려나갈수록 초등 교사들은 그 거리를 점점 더 과소평가하였다.

온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석 (Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics)

  • 이희승;진윤선;권오병
    • 지능정보연구
    • /
    • v.22 no.2
    • /
    • pp.13-31
    • /
    • 2016
  • 그동안 기업의 사회적 책임(CSR)관련 활동의 결과가 기업 성과에 미치는 단기적 및 장기적 영향에 대한 다양한 연구가 진행되었지만 그 결과는 일관되지 못한데 그 주된 원인은 기업의 사회적책임이라고 하는 개념의 불일치였다. 따라서 본 연구는 온라인 뉴스와 같은 비정형 공개 데이터로부터 기업의 사회적책임에 관련한 키워드를 텍스트 마이닝 기법을 사용하여 추출하고 그 개념에 대한 통계치와 기업 성과와의 관계성을 이해하려고 했다. 이를 위해 개념과 관련한 키워드는 뉴욕타임즈와 구글 스칼러에서 CSR이라고 하는 단어로 검색한 비정형 데이터로부터 인식하였다. 그런 다음 점검 대상이 되는 기업에 대한 글이 실려 있는 온라인 문서를 수집하여 기업의 사회적 책임과 기업 단기적 및 장기적 성과 사이의 인과관계를 분석하였다. 그 결과, 기업의 사회적 책임에 대한 전문적인 평가 보고서의 도움 없이도 본 연구에서 개발한 기업의 사회적 책임 인덱스만으로 기업의 단기적 성과에는 영향이 없지만 장기적 성과와는 통계적으로 유의하게 정비례관계가 있는 것이 밝혀졌다. 본 연구는 빅데이터 분석을 통해 효율적이고 의미 있는 기업의 사회적 책임 평가 방법을 개발한 첫 번째 시도라는 의미가 있다.

SCORM 기반 u-Learning과 e-Learning 비교연구 (Study on the Compared between u-Learning and e-Learning based SCORM)

  • 최성;유갑상
    • 한국정보기술응용학회:학술대회논문집
    • /
    • /
    • pp.495-505
    • /
    • 2006
  • IT기술기반 교육시스템은 인터넷 등장 이전에도 가능성을 인정받아 지속적으로 개발되어 온 분야이며, 교육공학과의 연계로 지식 전날의 이론체계로 각광을 받고 있다. 사이버교유도 인터넷이전부터 다양한 통신방법을 응용하여 개발되었고, 최근 인터넷을 통하여 사이버 교육시스템은 완벽한 기술기반을 갖추게 되였다. 그러나 IT기술의 급격한 변화로 사이버교육시스템은 계속하여 신기술 변화에 적용해야만 한다. 현재 정보통신기술의 변화는 방송 통신망의 융합, 브로드 밴드 네트워킹, 스마트 디바이스의 다양화, 멀티미디어 기술의 고도화로 요약된다. 이 기술의 종합한 작용으로 유비쿼터스 사회의 기반으로 진화되고 있다. 그래서 e-Learning 분야도 기존 인터넷기반 시스템과는 달리 차세대 온라인교육시스템으로 친화되고 있다. IT융합가술 기반의 온라인 교육시스템은 각종 국제표준단체에서 표준안이 제시되고 있다. e-Learning 시스템이란 선기술 기반을 반영한 표준기술을 사용하는 온라인교육시스템을 포괄하는 개념이다. 본 연구에서는 e-Learning 시스템과 유비쿼터스 기술을 반영한 e-Learning을 비교하였다. 그리고 u-Learning 시스템의 기술정립과 EOD(Education On Demand) 시스템에 대하여 연구하였다. 1. u-Learning 정의 정보산업분야를 비롯한 문화, 교육 등 모든 분야에서 유비퀴터스라는 수식어가 붙어 다니고 있다. e- Learning 교육 업계에 따르면 10년 후에는 유비쿼터스는 대중화가 될 것이며, 부가가치 규모는 100조 원에 이를 것으로 추정된다. 그래서 교육산업도 주변 환경이 아날로그 방식에서 IT 기반에 의한 디지털 환경으로 변화되고 있다. 또한 e러닝, T러닝, m러닝, u러닝 등의 용어가 생성되고 있다.키지에어컨에서 사용되고 있는 밀폐형 압축기에 대해서 그림 2에서 나타내고 있는 냉방능력 10tons(120,000Btu/h) 이하를 중심으로 상기의 최근 기술 동향을 간략하게 소개하고자 한다.질표준의 지표성분으로 간주되는 진세노사이드의 절대함량과 그 성분조성 차이에 따른 임상효과의 차별성이 있는지에 대한 검토와, 특히 최근 실험적으로 밝혀지고 있는 사포닌 성분의 장내 세균에 의한 생물전환체의 인체 실험을 통한 효과 검정이 필요하다. 나아가서는 적정 복용량의 설정과 이와 관련되는 생체내 동태 및 생체이용율(bioavilability)에 관한 정보가 거의 없으므로 이것도 금후 검토해야 할 과제로 사료된다. 인삼은 전통약물로서 오랜 역사성과 그동안의 연구결과에 의한 과학성을 가지고 있으므로 건강유지와 병의 예방 및 회복촉진을 위한 보조요법제 또는 기능성 식품으로써의 유용성이 있는 것으로 판단된다. 앞으로 인삼의 활용성 증대를 위해서는 보다 과학적인 임상평가에 의한 안전성 및 유효성 입증과 제품의 엄격한 품질관리의 필요성이 더욱 강조되어야 할 것이다.xyl radical 생성 억제 효과를 보여 주었다. 본 실험을 통하여 BHT 를 제외하고 전반적으로 세포 수준에서의 oxidative stress 에 대한 억제 효과를 확인해 볼 수 있었으며 특히 수용성 항산화제들에서 두드러진 효과를 보여 주었다. 제공하여 내수기반 확충에도 노력해야 할 것 이다.있었다., 인삼이 성장될 때 부분적인 영양상태의 불충분이나 기후 등에 따른 영향을 받을 수 있기 때문에 앞으로 이에 대한 많은 연구가 이루어져야할 것으로 판단된다.태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$<

  • PDF

지진 유발 산지토사재해 관련 국외 연구동향 분석 (International Research Trend on Mountainous Sediment-related Disasters Induced by Earthquakes)

  • 이상인;서정일;김진학;유동섭;서준표;김동엽;이창우
    • 한국산림과학회지
    • /
    • v.106 no.4
    • /
    • pp.431-440
    • /
    • 2017
  • 2016년 9월 12일 발생한 경주지진(ML 5.8)과 2017년 11월 15일 발생한 포항지진($M_L$ 5.4)으로 전례없는 피해가 발생하였으며, 이에 지진 유발 산지토사재해 관련 국내외 기초자료의 조속한 구축과 심층적 분석이 필요한 실정이다. 이 연구에서는 국외의 지진 유발 산지토사재해에 관한 선행연구를 수집 및 분석한 후, VOSviewer 프로그램을 이용한 텍스트마이닝과 동시출현단어 분석을 통하여 연구주제에 따른 연구영역을 구별하였으며, 이후 각 연구영역별로 시 공간적인 연구동향을 파악하였다. 그 결과, 2005년 이후 지진 유발 산지토사재해 관련 연구가 급격히 증가하는 것으로 나타났으며, 이는 최근 중국, 대만 및 일본 등지에서 발생한 대규모 지진의 영향으로 사료된다. 국외 지진 유발 산지토사재해에 관한 연구영역은 (i) 재해발생의 메커니즘에 관한 연구영역, (ii) 재해발생에 영향을 미치는 강우인자에 관한 연구영역, (iii) 항공 위성사진을 이용한 지진 유발 산지토사재해 위험지 예측에 관한 연구영역, (iv) 재해발생 모델링을 통한 재해위험지도 작성에 관한 연구영역으로 구분되었으며, 이들 연구영역은 상호간에 깊은 연관성을 지니고 있는 것으로 판단된다. 이렇게 구분된 각 연구영역이 전체 연구논문 중에서 점유하고 있는 비율을 파악한 결과, 1987년 이래 누적 연구논문수가 총 연구논문수의 50%에 해당하는 연도를 중심으로 모든 연구영역의 연간 연구비율이 증가한 것으로 나타났으며, 특히 '항공 위성사진을 이용한 지진 유발 산지토사재해 위험지 예측'에 관한 연구영역의 연구비율이 상대적으로 크게 증가하는 것으로 나타났다. 이러한 활발한 연구성과는 최근 중국을 대상으로 한 연구논문이 급격히 증가하였기 때문으로 추정되며, 이외에 대만, 일본, 미국 등에서 수행된 연구논문들 역시 모든 연구영역에서 연구성과의 증가에 영향을 준 것으로 추정된다. 이러한 연구결과는 국내의 지진유발 산지토사재해 관련 미래 연구의 방향을 제시하기 위한 기초자료로서 활용될 수 있을 것으로 기대한다.

재료 동적영향을 고려한 주냉각재 배관 LBB 적용시 Dynamic Strain Aging의 영향 분석

  • 양준석;박치용;정우태;유기완;김진원
    • 한국원자력학회:학술대회논문집
    • /
    • /
    • pp.305-311
    • /
    • 1998
  • 최근들어 고려된 LBB(Leak Before Break) 적용요건중 동적파괴시힘 절차에는 울진 3&4호기 이후 파단전누설개념이 적용되는 배관이 탄소강으로 제작될 경우. 이 배관이 Dynamic Strain Aging (DSA)에 의해 파괴저항치가 감소되지 않는다는 것이 정량적으로 입증되지 않는 한, 동 배관의 파괴 물성치 결정시 DSA의 영향이 고려되어야 하며, DSA 영향을 평가하기 위해서는 동적과괴시험이 수행되어야 함을 요건화 하고 있다. 본 연구에서는 DSA 효과에 의한 파괴저항(J-R) 특성의 저하가차세대원전 원자로냉각재배관 파단전누설개넘(LBB) 적용시 설계 안전여유도에 영향을 미치지 않는 정도임을 평가하는데 있다. 따라서 ASME Section III에서 탄소강으로 분류하고 있는 강종별 파괴인성 변화를 고찰하고, 차세대원전 주냉각재배관 재료인 SA508 Class la의 최대 파괴인성 감소치를 예측하여, 울진 3&4호기에서 측정된 엘보우용 SA516-Gr.70 강의 DSA 영향 평가 결과와 비교 분석하여 차세대원전 주냉각재배관의 DSA영향을 평가하였다. 도출된 결론으로는 DSA 영향을 고려한 SA508 Class la의 J 및 dJ/dA 값은 극히 보수적으로 추정할 때 50% 이상 감소하는 것으로 예측된다. 이러한 DSA 영향을 고려하였을 경우 배관재 모재의 파괴인성치는 Weld-SAW의 J/T 값 수준으로 감소하였다. 그러나 현 LRB 해석이 가장 낮은 J/T값을 갖는 Weld-SAW Auto의 균열길이 2a인 J/T선도에 의거하여 수행되고 있다는 점을 고려한다면 비록 DSA가 배관재에 영향을 주는 가장 보수적인 값(J 및 dJ/dA값을 50% 이상)을 사용한다고 하더라도 차세대원전 LBB 적용에 문제가 되지 않음을 알 수 있다. 즉 차세대원자로 주냉각재배관에 LBB를 적용하는데는 DSA 영향은 상대적으로 중요하지 않다는 결론을 얻었다. 표면에 수소화물이 농축되어 있는 hydride layer가 형성됨을 관찰하였으며 ~5,000ppm 이상의 경우에는 수소화물의 방향성이 random하였으며 특히, ZIRLO$^{TM}$ 시편의 경우에서는 원주방향으로 길게 이어진 수소화물과 기계적 성질에 치명적인 반경방향의 수소화물이 평행하게 배열된 것을 관찰하였다.하였을 때는 Li$_2$O의 첨가에 의해 치밀화가 주로 일어났고, 반면에 $N_2$-7vol.%H$_2$ 분위기에서 소결하면 Li$_2$O의 첨가에 의해 작은 기공은 소멸되고 큰 기공이 생성되었다.지나치게 모국어의 영향만 강조하고 다른 요인들에 대해서는 다분히 추상적인 언급으로 끝났지만 이 분석을 통 해서 배경어, 목표어, 특히 중간규칙의 역할이 괄목할 만한 것임을 가시적으로 관찰할 수 있 다. 이와 같은 오류분석 방법은 학습자의 모국어 및 관련 외국어의 음운규칙만 알면 어느 학습대상 외국어에라도 적용할 수 있는 보편성을 지니는 것으로 사료된다.없다. 그렇다면 겹의문사를 [-wh]의리를 지 닌 의문사의 병렬로 분석할 수 없다. 예를 들어 누구누구를 [주구-이-ν가] [누구누구-이- ν가]로부터 생성되었다고 볼 수 없다. 그러므로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성요 소를 지닌 병렬적 합성어([$[W1]_{XO-}$ $[W1]_{XO}$ ]$_{XO}$)로

  • PDF