Abstract
Representing protein three-dimensional structure by concatenating a sequence of protein fragments gives an efficient application in analysis, modeling, search, and prediction of protein structures. This paper investigated the effective combination of distance measures, which can exploit large protein structure database, in order to construct a protein fragment library representing native protein structures accurately. Clustering method was used to construct a protein fragment library. Initial clustering stage used inter alpha-carbon distance having low time complexity, and cluster extension stage used the combination of inter alpha-carbon distance, Binet-Cauchy distance, and root mean square deviation. Protein fragment library was constructed by leveraging large protein structure database using the proposed combination of distance measures. This library gives low root mean square deviation in the experiments representing protein structures with protein fragments.
단백질의 삼차원 구조를 단백질의 국부적 구조인 단백질 조각의 일차원적 나열로 표현하면, 단백질 구조의 분석, 모델링, 탐색, 예측 등에 효과적으로 응용될 수 있다. 본 논문에서는 자연 상태의 단백질 구조를 정확하게 나타낼 수 있는 단백질 조각 라이브러리를 구성하기 위하여, 대규모 단백질 구조 자료를 이용 할 수 있는 거리 척도들의 효과적인 조합을 조사하였다. 단백질 조각 라이브러리를 구성하기 위해 군집화를 사용하였다. 초기 군집화 단계에서는 가장 계산량이 작은 내부 알파탄소간 거리를 사용하였고, 군집의 확장단계에서는 내부 알파탄소간 거리, 비네-코시거리와 평균 제곱근 오차를 조합하여 사용하였다. 제안한 거리 척도의 조합으로 대규모 자료를 이용하여 단백질 조각 라이브러리를 구성하였다. 구성된 라이브러리를 사용하여 단백질 구조를 나타내는 실험에서 작은 평균 제곱근 오차가 발생함을 확인하였다.