• Title/Summary/Keyword: Inverted File

Search Result 42, Processing Time 0.034 seconds

STEER Inverted File Structure for Dynamic Document Insertion/Deletion (문서의 동적 삽입 삭제를 위한 STEER 역파일 구조)

  • 김남일;박영찬;주종철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.174-176
    • /
    • 1998
  • 역파일 구조(inverted file structure)는 검색 속도가 빠르기 때문에 정보검색 시스템의 색인정보 하부 저장구조로 널리 이용되지만 문서의 동적 삭제는 어려운 형태이다. 본 논문에서는 기존역파일 구조에 문서마다 색인어의 포스팅 레코드를 기록한 목록을 유지함으로써 문서의 동적 삭제가 용이하고, 위치정보를 포스팅 레코드에서 분리하여 위치 검색이 효율적인 역파일 구조를 설계한다. 설계된 역파일 구조는 STEER(Structured Entity Element Retrieval) 정보검색 시스템에서 구현되었다.

  • PDF

Design and Performance Evaluation of an Indexing Method for Partial String Searches (문자열 부분검색을 위한 색인기법의 설계 및 성능평가)

  • Gang, Seung-Heon;Yu, Jae-Su
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.6
    • /
    • pp.1458-1467
    • /
    • 1999
  • Existing index structures such as extendable hashing and B+-tree do not support partial string searches perfectly. The inverted file method and the signature file method that are used in the web retrieval engine also have problems that they do not provide partial string searches and suffer from serious retrieval performance degradation respectively. In this paper, we propose an efficient index method that supports partial string searches and achieves good retrieval performance. The proposed index method is based on the Inverted file structure. It constructs the index file with patterns that result from dividing terms by two syllables to support partial string searches. We analyze the characteristics of our proposed method through simulation experiments using wide range of parameter values. We analyze the derive analytic performance evaluation models of the existing inverted file method, signature file method and the proposed index method in terms of retrieval time and storage overhead. We show through performance comparison based on analytic models that the proposed method significantly improves retrieval performance over the existing method.

  • PDF

Phrase search using posting file in Korean Information Retrieval System (Posting File을 이용한 구절 검색 방법)

  • 박대원;박민식;박진희;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.384-386
    • /
    • 2000
  • Posting file은 문서 내의 색인어와 색인어의 위치 정보-문장번호, 어절 번호 등으로 구성한 문서별 색인어 역파일(inverted file)이다. 본 논문에서는 posting file을 구성하고 이를 정보검색시스템에 적용하여 색인어의 어절 거리 계산에 의해 구절 검색이 가능한 정보검색시스템을 소개한다. 또한 사용자 질의문과 가장 유사한 문장을 검색결과 대표문장으로 제시하여 사용자가 검색결과를 쉽게 확인할 수 있는 방법을 제시한다.

  • PDF

Implementation of the Inverted File for Indexing Large-volume Data (대용량 데이터 색인에 적합한 역파일의 구현)

  • Sung Chae Lim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.909-912
    • /
    • 2008
  • 대용량 문서에 대한 키워드 검색을 위해 역파일(inverted-file) 색인 기법이 널리 쓰이고 있다. 역파일 색인 기법을 구현함에 있어 고려되어야 할 점은 키워드 검색 처리 시에 디스크 사용을 최소로 할 수 있는 방법이다. 크기가 작은 역파일이라면 디스크 I/O 사용도 작고 필요시 역파일을 메모리에 적재하여 둠으로써 디스크 사용을 크게 줄일 수 있다. 하지만, 웹 검색이나 규모가 큰 도서관 시스템에서와 같이 색인 데이터 크기가 매우 큰 경우 역파일을 읽는 디스크 비용이 급격히 증가할 수 있다. 본 논문에서는 매우 큰 크기의 역파일을 사용하는 검색 환경에서 디스크 사용을 최소로 할 수 있는 역파일 구조를 제안한다. 제안된 구조는 질의 처리 과정을 고려해 계층 구조로 설계되며 실제 상용 시스템에 적용되어 안정성 및 성능을 입증했다.

A Study on Constructing the Ontology of LIS Journal (문헌정보학 학술지를 대상으로 한 온톨로지 구축에 관한 연구)

  • Noh, Young-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.28 no.2
    • /
    • pp.177-193
    • /
    • 2011
  • This study constructed an ontology targeting journal articles and evaluated its performance. Also, the performance of a triple structure ontology was compared with the knowledge base of an inverted index file designed for a simple keyword search engine. The coverage was three years of articles published in the Journal of the Korean Society for Information Management from 2007 to 2009. Protege was used to construct an ontology, whilst utilizing an inverted index file to compare performance. The concept ontology was manually established, and the bibliography ontology was automatically constructed to produce an OWL concept ontology and an OWL bibliography ontology, respectively. This study compared the performance of the knowledge base of the ontology, using the Jena search engine with the performance of an inverted index file using the Lucene search engine. As a result, The Lucene showed higher precision rate, but Jena showed higher recall rate.

File Content Retrieval Program Using HashMap-based Trie (HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램)

  • Kim, Sung Wan;Lee, Woosoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

Vertically Partitioned Block Nested Loop join on Set-Valued Attributes (집합 값을 갖는 애트리뷰트에 대한 수직적으로 분할된 블록 중첩 루프 조인)

  • Whang, Whan-Kyu
    • Journal of Industrial Technology
    • /
    • v.28 no.B
    • /
    • pp.209-214
    • /
    • 2008
  • Set-valued attributes appear in many applications to model complex objects occurring in the real world. One of the most important operations on set-valued attributes is the set join, because it provides a various method to express complex queries. Currently proposed set join algorithms are based on block nested loop join in which inverted files are partitioned horizontally into blocks. Evaluating these joins are expensive because they generate intermediate partial results severely and finally obtain the final results after merging partial results. In this paper, we present an efficient processing of set join algorithm. We propose a new set join algorithm that vertically partitions inverted files into blocks, where each block fits in memory, and performs block nested loop join without producing intermediate results. Our experiments show that the vertical bitmap nested set join algorithm outperforms previously proposed set join algorithms.

  • PDF

A Reasearch on Signature File Methods for Korean Text Retrieval (한글 텍스트 검색을 위한 요약 화일 기법에 관한 연구)

  • Song, Byoung-Ho;Lee, Suk-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.231-237
    • /
    • 1991
  • 텍스트에 대한 내용 본위 검색 기법으로서 요약 화일(signature file) 기법은 역화일(inverted file)이 허용되지 않을 때 매우 유용하다. 그러나 한글은 영문과 달리 어절의 형성이 복잡하고 띄어쓰기 형태가 고정되지 않음에 따라 기존의 단어 위주 영문 본위 요약 화일 기법을 그대로 적용시킬 수 없다. 본 논문에서는 이를 위하여 띄어쓰기를 무시하고 중복된 2음절 패턴을 도출하여 요약 화일을 구성, 검색하는 기법을 제안한다. 이 기법은 일본어, 중국어 등 비슷한 문제를 가진 외국어에도 적용될 수 있다.

  • PDF