Affinity and Variety between Words in the Framework of Hypernetwork

하이퍼네트워크에서 본 단어간 긴밀성과 다양성

  • 김준식 (서울대학교 물리천문학과) ;
  • 박찬훈 (서울대학교 컴퓨터공학과) ;
  • 이은석 (서울대학교 인지과학협동과정) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Published : 2008.04.15

Abstract

We studied the variety and affinity between the successive words in the text document A number of groups were defined by the frequency of a following word in the whole text (corpus). In the previous studies, the Zipf's power law was explained by Chinese restaurant process and hub node was searched after by examining the edge number profile in scale free network. We have observed both a power law and a hub profile at the same time by studying the conditional frequency and degeneracy of a group. A symmetry between the affinity and the variety between words were found during the data analysis. And this phenomenon can be explained within a viewpoint of "exploitation and exploration." We also remark on a small symmetry breaking phenomenon in TIPSTER data.

전체문서(Corpus)에서의 두 단어 간 연결 상태를 파악하여 앞 단어 다음에 오는 단어의 빈도수를 기반으로 여러 형태의 그룹을 분류하여 단어 간 다양성과 긴밀성을 살펴보았다. 기존의 연구에서 Zipf's Power Law는 Chinese Restaurant Process로 설명되었고 Scale Free Network에서는 edged의 수에 따른 노드의 profile을 조사하여 hub들을 찾는 연구가 수행되었다. 본 연구에서는 단어 간 연결의 유일성과 다양성을 조사하여 Zipf's Power Law와 hub profile을 동시에 살펴보았다. 데이타 분석 결과 단어 간 연결의 긴밀성과 다양성 사이에서 대칭성으로 함축되는 유의한 결과를 얻었으며 이는 소위 'exploitation'과 'exploration'의 관점에서 설명될 수 있다. 또한 분석 자료인 TIPSTER에서 관찰된 약간의 대칭성 깨짐(symmetry breaking)에 대해서도 논한다.

Keywords

References

  1. Steyvers, M., Griffiths, T. L., and Dennis, S., 'Probabilistic inference in human semantic memory,' TRENDS in cognitive science Vol.10, No.7, pp. 327-334, 1998 https://doi.org/10.1016/j.tics.2006.05.005
  2. Bak, P., Christensen, K., Danon, L., and Scanlon, T., 'Unified scaling law for earthquakes,' Physical Review Letters Vol.88, No.17 p. 178501, 2002
  3. Bak, P and Chen, K., 'Scale dependent dimension of luminous matter in the universe,' Physical Review Letters Vol.86, No.19, pp. 4215-4218, 2001 https://doi.org/10.1103/PhysRevLett.86.4215
  4. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., and Barabasi, A.-L., 'Hierarchical organization of modularity in metabolic networks,' Science Vol.297, No.5586, pp. 1551-1555, 2002 https://doi.org/10.1126/science.1073374
  5. Furusawa, C., 'Zipf's law in gene expression,' Physical Review Letters Vol.90, No.8, p. 088102, 2003 https://doi.org/10.1103/PhysRevLett.90.088102
  6. Barabasi A. -L., and Albert, R., 'Emergence of scaling in random networks,' Science Vol.286, No.5439, pp. 509-512, 1999 https://doi.org/10.1126/science.286.5439.509
  7. Goldwater, S., Griffiths, T.L., and Johnson, M., 'Interpolating between types and tokens by estimating power-law generators,' Advances in Neural Information Processing Systems Vol.18, pp. 459-466, 2006
  8. Kechedzhi, K.E., Usatenko, O. V., and Yampolskii V. A., 'Rank distribution of words in correlated symbolic systems and the Zipf law,' Physical Review E Vol.72, p. 046138, 2005 https://doi.org/10.1103/PhysRevE.72.046138
  9. Zhang, B.-T., and Kim, J.-K., 'DNA hypernetworks for information storage and retrieval,' Lecture Notes in Computer Science, DNA12, Vol.4287, pp. 298-307, 2006
  10. Kim, S., Heo, M.-O., and Zhang, B.-T., 'Text classifier evolved on a simulated DNA computer,' IEEE Congress on Evolutionary Computation (CEC 2006), pp. 9196-9202, 2006
  11. Berge, C., Graphs and Hypergraphs, p.389, North- Holland Publishing, Amsterdam, 1973
  12. Ha, J.-W., Eom, J.-H., Kim, S.-C., and Zhang, B.-T., 'Evolutionary hypernetwork models for aptamer-based cardiovascular disease diagnosis,' The Genetic and Evolutionary Computation Conference (GECCO 2007), Vol.4, pp. 2709-2716, 2007
  13. 김준식, 김종찬, 노영균, 이동윤, 장병탁, 'DNA 컴퓨팅 연산 과정의 통계 물리적 예측,' 한국컴퓨터종합학술대회 2005 논문집, 제32권 제1(B)호, pp. 253-355, 2005
  14. Krane, K. S., Introductory Nuclear Physics, p.33, John Wiley & Sons, Inc, 1988
  15. Maslov, S., Paczuski, M., and Bak, P., 'Avalanches and 1/f noise in evolution and growth models,' Physical Review Letters Vol.73, No.16, pp. 2162- 2165, 1994 https://doi.org/10.1103/PhysRevLett.73.2162