DOI QR코드

DOI QR Code

An Automated Technique for Illegal Site Detection using the Sequence of HTML Tags

HTML 태그 순서를 이용한 불법 사이트 탐지 자동화 기술

  • 이기룡 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이희조 (고려대학교 컴퓨터.전파통신공학과)
  • Received : 2016.04.20
  • Accepted : 2016.06.29
  • Published : 2016.10.15

Abstract

Since the introduction of BitTorrent protocol in 2001, everything can be downloaded through file sharing, including music, movies and software. As a result, the copyright holder suffers from illegal sharing of copyright content. In order to solve this problem, countries have enacted illegal share related law; and internet service providers block pirate sites. However, illegal sites such as pirate bay easily reopen the site by changing the domain name. Thus, we propose a technique to easily detect pirate sites that are reopened. This automated technique collects the domain names using the google search engine, and measures similarity using Longest Common Subsequence (LCS) algorithm by comparing the tag structure of the source web page and reopened web page. For evaluation, we colledted 2,383 domains from google search. Experimental results indicated detection of a total of 44 pirate sites for collected domains when applying LCS algorithm. In addition, this technique detected 23 pirate sites for 805 domains when applied to foreign pirate sites. This experiment facilitated easy detection of the reopened pirate sites using an automated detection system.

2001년 비트토렌트 프로토콜이 설계된 후로 음악, 영화, 소프트웨어 등 모든 것을 다운로드할 수 있게 되었다. 이를 통해 저작권이 있는 파일이 무분별하게 공유가 되었고 저작권자들은 많은 피해를 입었다. 이 문제를 해결하기 위해 국가에서는 관련법을 제정하였고 ISP는 불법 사이트를 차단하였다. 이러한 노력들에도 불구하고 pirate bay와 같은 불법 사이트들은 도메인을 바꾸는 등 쉽게 사이트를 재오픈하고 있다. 이에 우리는 재오픈된 불법 사이트를 쉽게 탐지하는 기술을 제안한다. 이 자동화 기술은 구글 검색엔진을 이용하여 도메인을 수집하고, 최장공통부분수열(LCS) 알고리즘을 이용하여 기존 웹페이지 태그와 검색된 웹페이지 태그를 비교, 유사도를 측정한다. 실험을 위해 총 2,383개의 검색 결과를 구글 검색으로 얻었다. LCS 유사도 알고리즘을 적용하여 검사한 결과 44개의 해적 사이트를 탐지하였다. 또한 해외 불법 사이트에 적용한 결과 805개 검색 도메인에서 23개의 불법 사이트를 탐지하였다. 이를 통해 제안된 탐지 자동화 기술을 사용한다면 불법 사이트가 재 오픈을 하더라도 쉽게 탐지할 것으로 보인다.

Keywords

Acknowledgement

Grant : BK21플러스

Supported by : 고려대학교

References

  1. Business Software Alliance, "Shadow Market: 2011 BSA Global Software Piracy Study," May 2012.
  2. A. Adermon, C-Y. Liang, "Piracy and Music Sales: The Effects of An Anti-Piracy Law," Journal of Economic Behavior & Organization, Vol. 105, pp. 90-106, Sep. 2014. https://doi.org/10.1016/j.jebo.2014.04.026
  3. B. Danaher, MD. Smith, R. Telang, "The Effect of Piracy Website Blocking on Consumer Behavior," Social Science Research Network, Nov. 2015.
  4. KOCSC. (2016, Jan. 6). [Online]. Available: http://www.kocsc.or.kr/02_infoCenter/info_Communition_List.php
  5. A. P. E. Rosiello, E. Kirda, C. Kruegel, "A Layout-Similarity-Based Approach for Detecting Phishing Pages," SecureComm, pp. 454-463, Sep. 2007.
  6. S. Roopak, T. Thomas, "A Novel Phishing Page Detection Mechanism Using HTML Source Code Comparison and Cosine Similarity," Advances in Computing and Communications (ICACC), pp. 167-170, Aug. 2014.
  7. ME. maurer, D. Herzner, "Using visual website similarity for phishing detection and reporting," CHI'12 Extended Abstracts on Human factors in Computing systems, pp. 1625-1630, May. 2012.
  8. S. Brin, L. Page, "Reprint of: The Anatomy of a Large-Scale Hypertextual Web Search Engine," Computer networks, 2012 Fourth International Conference on, Vol. 56, No. 18, pp. 3825-3833, Oct. 2012.
  9. Torrentfreak. (2015, Jan. 04). [Online]. Available: https://torrentfreak.com/top-popular-torrent-sites-2015-150104/