Fragment Combination From DNA Sequence Data Using Fuzzy Reasoning Method

퍼지 추론기법을 이용한 DNA 염기 서열의 단편결합

  • Published : 2006.12.30

Abstract

In this paper, we proposed a method complementing failure of combining DNA fragments, defect of conventional contig assembly programs. In the proposed method, very long DNA sequence data are made into a prototype of fragment of about 700 bases that can be analyzed by automatic sequence analyzer at one time, and then matching ratio is calculated by comparing a standard prototype with 3 fragmented clones of about 700 bases generated by the PCR method. In this process, the time for calculation of matching ratio is reduced by Compute Agreement algorithm. Two candidates of combined fragments of every prototype are extracted by the degree of overlapping of calculated fragment pairs, and then degree of combination is decided using a fuzzy reasoning method that utilizes the matching ratios of each extracted fragment, and A, C, G, T membership degrees of each DNA sequence, and previous frequencies of each A, C, G, T. In this paper. DNA sequence combination is completed by the iteration of the process to combine decided optimal test fragments until no fragment remains. For the experiments, fragments or about 700 bases were generated from each sequence of 10,000 bases and 100,000 bases extracted from 'PCC6803', complete protein genome. From the experiments by applying random notations on these fragments, we could see that the proposed method was faster than FAP program, and combination failure, defect of conventional contig assembly programs, did not occur.

본 논문에서는 기존의 conting 구성 프로그램의 단점인 단편들 간의 결합 실패를 보완하는 알고리즘을 제안하였다. 제안된 방법은 매우 긴 DNA의 염기 서열을 자동 서열 분석기로 한번에 분석 가능한 약 700개의 단편들을 한 주형으로 만들어 PCR 방법으로 클론 3을 생성 후, $600\sim700$개의 길이로 단편화하여 기준 주형과 비교하여 일치율을 계산한다. 이때 Compute Agreement 알고리즘을 이용하여 일치율을 계산하는 시간을 단축시킨다. 계산된 단편 쌍들의 중첩 정도를 기준으로 주형마다 2개의 결합 후보 단편을 추출하여 추출된 각 단편들의 일치율과 각 DNA 염기의 A,G,C,T 소속도 및 각 A,G,C,T 이 전 빈도수를 퍼지 추론 규칙을 이용하여 결합 여부를 판단한다. 본 논문에서는 결정된 최 적의 비교 단편을 결합하고, 더 이상 단편이 없을 때까지 반복하여 서열 결합을 완성한다. 실험을 위해 완성된 단백질 지놈인 'Synechocystis PCC6803'을 각각 1만개, 10만개씩 추출하여 $600{\sim}700$개의 길이를 가진 단편을 생성하였으며, 이 단편을 임 의의 mutation을 유발하여 실험한 결과, FAP 프로그램보다 속도가 줄어들었으며, conting 구성 프로그램의 단점 인 결합 실패가 발생하지 않았다.

Keywords

References

  1. Staden, 'A new computer method for the storage and manipupulation of DNA gel reading data,' Nucl. Acids, Res. 8, pp.3673-3694, 1980 https://doi.org/10.1093/nar/8.16.3673
  2. Hannu, P., H. Soderlund and E. Ukkonen, 'SEQAID: a DNA sequence addembling program based on a mathmedical model,' Nucl. Acids, Res. 12, pp.307-321, 1984 https://doi.org/10.1093/nar/12.1Part1.307
  3. Xiaoqiu, H, 'A Contig Assembly Program Based on sensitive Detection of Fragment Overlaps,' Genomics, Res. 14, pp.18-25, 1992 https://doi.org/10.1016/S0888-7543(05)80277-0
  4. 이병욱, 박기정, 박완, 박용하, 'DNA 염기 서열의 단편 조립 프로그램 개발,' Kor. J. Appl. Microbiol. Biotechnol. 제25권, 6호, pp.560-565, 1997
  5. Georage J. K. and Eo Y., Fuzzy Sets and Fuzzy Logic Theory and Applications, Prentice Hall PTR, 1995
  6. Sanger, F., Nicklen, S., and Coulson, A.R. 'DNA Sequencing with chain terminator inhibitors,' Proc. Natal. Acad. Sci. USA 74, pp.5463-5467, 1977