DOI QR코드

DOI QR Code

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝

  • 강태호 (충북대학교 전기전자컴퓨터공학부) ;
  • 유재수 (충북대학교 전기전자컴퓨터공학부)
  • Published : 2008.04.30

Abstract

Biological sequences such as DNA sequences and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological dataset with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with the fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. As the result, the experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

Keywords

References

  1. V. Chvatal and D. Sankoff “Longest Common Subsequences of two random Sequences” Applied Probability, 12, 306-315, 1995 https://doi.org/10.2307/3212444
  2. R. Wanger and M. Fischer “The string-to-string Correction Problem” ACM, 21, 168-173, 1974 https://doi.org/10.1145/321796.321811
  3. S. Needleman, C. Wunsch “A general Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins” Mol. BioInformatics, 48(3), 443-453, 1970 https://doi.org/10.1016/0022-2836(70)90057-4
  4. R. Agrawal and R. Srikant “Fast algorithms for mining association rules” In Proc. 1994 int. Conf. VeryLarge DataBases(VLDB'94), 487-499, Santiago, Chile Sept. 1994
  5. R. Srikant and R. Agrwal “Mining Sequential Patterns: Generalizations and performance improvements” In proc. 5th Int. Conf. Extending Database Technology (EDBT'96), 3-17, Avignon, France, Mar. 1996
  6. J. pei, J. Han, B. Mortazavi-Asl, Q. Chen, U. Dayal, and M.C. Hsu “PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth” In ICDE'01, Gemany, April 2001
  7. Jin Pan, Peng Wang, Wei Wang, Baile Shi and Genxing Yang “Efficient Algorithms for Mining Maximal Frequent Concatenate Sequences in Biological Datasets” Proceedings of the The Fifth International Conference on Computer and Information Technology 98-104, 2005
  8. D. Hirschberg “Algorithms for the logest common subsequence problem” the Assoc. Comput. Mach, 24(4), 664-675, 1997 https://doi.org/10.1145/322033.322044
  9. E.M. McCreight “A space-economical suffix Tree construction algorithms” ACM 23 262-272 1976 https://doi.org/10.1145/321941.321946
  10. M. farach “Optimal suffix tree construction with large alphabets” IEEE Symp. Found Computer Science 137-143, 1997
  11. R. Hariharan “Optimal parallel suffix tree construction” IEEE Symp. Found Computer Science, 290-299, 1994