DOI QR코드

DOI QR Code

Macroscopic Biclustering of Gene Expression Data

유전자 발현 데이터에 적용한 거시적인 바이클러스터링 기법

  • Published : 2009.06.30

Abstract

A microarray dataset is 2-dimensional dataset with a set of genes and a set of conditions. A bicluster is a subset of genes that show similar behavior within a subset of conditions. Genes that show similar behavior can be considered to have same cellular functions. Thus, biclustering algorithm is a useful tool to uncover groups of genes involved in the same cellular process and groups of conditions which take place in this process. We are proposing a polynomial time algorithm to identify functionally highly correlated biclusters. Our algorithm identifies 1) the gene set that has hidden patterns even if the level of noise is high, 2) the multiple, possibly overlapped, and diverse gene sets, 3) gene sets whose functional association is strongly high, and 4) deterministic biclustering results. We validated the level of functional association of our method, and compared with current methods using GO.

마이크로어레이 데이터는 유전자의 집합이 어떠한 조건 혹은 샘플의 집합 하에서 얼마나 발현되는지를 수치화한 2차원 행렬 데이터이다. 바이클러스터는 마이크로어레이의 샘플의 부분 집합과 이 샘플 부분 집합 하에서 일정한 증감 패턴을 보이는 유전자의 부분 집합을 말한다. 이렇게 같은 패턴을 보이는 유전자의 부분 집합은 일정한 정도의 유의 수준으로 비슷한 기능을 한다고 말할 수 있다. 따라서 바이클러스터링 알고리즘은 같은 기능에 연관된 유전자의 집합과, 이 기능이 발현되고 있는 조건의 집합을 밝혀내는데 있어서 매우 유용하다. 본 논문에서는 다항식 시간 복잡도를 유지하면서, 높은 기능적 상관관계를 가지는 바이클러스터를 밝혀 낼 수 있는 알고리즘을 제안한다. 이 알고리즘은 1) 마이크로어레이 데이터에 심한 노이즈가 있을 경우 패턴으로 인식하지 못하는 기존 알고리즘과 달리, 노이즈 레벨이 심하더라도 거시적으로 비슷한 모양을 보이는 패턴을 찾아내는 방식을 이용하여 숨어있는 패턴들을 찾아낼 수 있고, 2) 바이클러스터 상호간에 오버랩을 허용하며, 또한 다양성이 보장되는 복수의 바이클러스터를 찾아내며, 3) 찾아진 유전자 부분 집합의 기능적 상관관계가 매우 높은 특성을 지니고, 4) 유전자 및 샘플의 순서와 상관없이 결정적인(deterministic) 결과를 도출한다. 또한 본 논문에서는 알고리즘이 찾아낸 바이클러스터의 기능적 상관관계의 정도와, 비교 알고리즘이 찾아낸 바이클러스터의 기능적 상관관계의 정도를 유전자 온톨로지(Gene Ontology)를 통해서 측정함으로써 비교하고 있다.

Keywords

References

  1. S. C. Madeira and A. L. Oliveira, 'Biclustering Algorithms for Biological Data Analysis: A Survey,' IEEE/ACM Trans. Computational Biology and Bioinformatics, Vol.1, No.1, pp. 24-45, 2004 https://doi.org/10.1109/TCBB.2004.2
  2. A. Ben-Dor, B. Chor, R. Karp, and Z. Yakhini, 'Discovering local structure in gene expression data: The order-preserving submatrix problem,' in Proc. 6th Int'l Conf. Computational Biology, pp.49-57, 2002 https://doi.org/10.1145/565196.565203
  3. Y. Cheng and G.M. Church, 'Biclustering of Expression Data,' in Proc. 8th Int'l Conf. Intelligent Systems for Molecular Biology, pp.93-103, 2000
  4. W. Liu and L. Chen, 'A Fast Algorithm for Gene Expressing Data Biclustering,' International Journal of Intelligent Information Technology Application, Vol.1, issue1, pp.30-36, 2008 https://doi.org/10.1109/CCCM.2008.82
  5. H. Wang, W. Wang, J. Yang and P. S. Yu, 'Clustering by Pattern Similarity in Large Data Sets,' in Proc. ACM SIGMOD Int'l. Conf. Management of Data, pp.394-405, 2002 https://doi.org/10.1145/564691.564737
  6. L. Zhao and M. J. Zaki, 'triCluster: An Effective Algorithm for Mining Coherent Clusters in 3D Microarray Data,' in Proc. ACM SIGMOD Int'l. Conf. on Management of data, pp.694-705, 2005 https://doi.org/10.1145/1066157.1066236
  7. X. Xu, Y. Lu, A. K. H. Tung and W. Wang, 'Mining Shiftingand-Scaling Co-Regulation Pattern on Gene Expression Profiles,' in Proc. 22nd IEEE Int'l. Conf. on Data Engineering, pp.89-99, 2006 https://doi.org/10.1109/ICDE.2006.98
  8. X. Liu and L. Wang, 'Computing the maximum similarity bi-clusters of gene expression data,' Bioinformatics, Vol.18, No.1, pp.50-56, 2007 https://doi.org/10.1093/bioinformatics/btl560
  9. A. Prelic, S. Bleuler, P. Zimmermann, A. Wille, P. Bhlmann, W. Gruissem, L. Hennig, L. Thiele, and E. Zitzler, 'A systematic comparison and evaluation of biclustering methods for gene expression data,' Bioinformatics, Vol.22, No.9, pp.1122-1129, 2006 https://doi.org/10.1093/bioinformatics/btl060
  10. J. Liu and W. Wang, 'Op-cluster: Clustering by tendency in high dimensional space,' in Proc. IEEE Int'l. Conf. on Data Mining, pp.187-194, 2003
  11. B. J. Gao, O. L. Griffith, M. Ester, and S. J. M. Jones, 'Discovering significant OPSM subspace clusters in massive gene expression data,' in Proc. 12th ACM SIGKDD pp.922- 928, 2006 https://doi.org/10.1145/1150402.1150529
  12. Y. Zhao, G. Wang, Y. Yin and G. Yu, 'Mining Positive and Negative Co-regulation Patterns from Microarray Data,' in Proc. 6th IEEE Symposium on BioInformatics and Bio- Engineering, pp.86-93, 2006
  13. S. Tavazoie, J. D. Hughes, M. J. Campbell, R. J. Cho, and G. M. Church, 'Systematic determination of genetic network architecture,' Nature Genetics, Vol.22, pp.281-285, 1999 https://doi.org/10.1038/10343
  14. A. P. Gasch, P. T. Spellman, C. M. Kao, O. Carmel-Harel, M. B. Eisen, G. Storz, D. Botstein and P. O. Brown, 'Genomic expression programs in the response of yeast cells to environmental changes,' Molecular Biology of the Cell, Vol.11, pp.4241-57, 2000 https://doi.org/10.1091/mbc.11.12.4241
  15. G. F. Berriz, O. D. King, B. Bryant, C. Sander and F. P. Roth, 'Characterizing gene sets with FuncAssociate,' Bioinformatics, Vol.19, No.18, pp.2502-2504, 2003 https://doi.org/10.1093/bioinformatics/btg363
  16. J. Ihmels, S. Bergmann and N. Barkai, 'Defining transcription modules using large-scale gene expression data,' Bioinformatics, Vol.20, No.13, pp.1993-2003, 2004 https://doi.org/10.1093/bioinformatics/bth166
  17. S. Barkow, S. Bleuler, A. Prelic, P. Zimmermann and E. Zitzler, 'BicAT: a biclustering analysis toolbox,' Bioinformatics, Vol.22, No.10, pp.1282-1283, 2006 https://doi.org/10.1093/bioinformatics/btl099
  18. A. Tanay, R. Sharan and R. Shamir, 'Discovering statistically significant biclusters in gene expression data,' Bioinformatics, Vol.18, No.1, pp.136-144, 2002 https://doi.org/10.1093/bioinformatics/18.suppl_1.S136
  19. T. M. Murali and S. Kasif, 'Extracting conserved gene expression motifs from gene expression data,' Pac. Symp. Biocomput., 8, 77-88, 2003 https://doi.org/10.1142/9789812776303_0008
  20. J. Han, M. Kamber, Data Mining: Concepts and Techniques, second ed., Morgan Kaufman, San Francisco, CA, 2006