Near Duplicate News Combining System to Prevent Information Loss Due to Deduplication of News

뉴스 중복 제거에 따른 정보 유실 방지하기 위한 중복 뉴스 결합 시스템

  • Kim, Tae-Hwan (Dept. of Computer Science & Engineering, Han-Yang University) ;
  • Choi, Won-Jae (Dept. of Computer Science & Engineering, Han-Yang University) ;
  • Kim, Jung-Sun (Dept. of Computer Science & Engineering, Han-Yang University)
  • 김태환 (한양대학교 컴퓨터공학과) ;
  • 최원재 (한양대학교 컴퓨터공학과) ;
  • 김정선 (한양대학교 컴퓨터공학과)
  • Published : 2020.07.15

Abstract

본 논문에서는 중복 데이터가 가장 많은 인터넷 뉴스 상에서 중복 뉴스를 제거하는 경우 중복 뉴스로 판단되는 유사 중복 문서를 제거할 때 정보의 유실이 발생한다. 본 논문에서는 인터넷 뉴스를 대상으로 유사 중복 뉴스를 제거할 때 발생하는 정보의 유실을 해결하기 위해 제거 된 뉴스와 결합하여 새로운 뉴스를 만드는 중복 뉴스 결합 시스템을 제안한다. 제안하는 방법은 뉴스의 기본 문장과 탐지된 중복 뉴스의 문장 간의 관계 유사도를 활용하여 유실 된 정보를 파악하고 파악된 결과를 기본 뉴스에 결합하여 정보의 유실을 최소화 시키는 것을 실험을 통해 보였다. 향후 뉴스분야뿐만 아니라 중복 문서 제거가 필요한 문서를 다루는 모든 분야에서 정보의 유실을 최소화하기 위한 방법으로 활용할 수 있을 것으로 기대 한다.

Keywords