Comparison and Analysis of Lengths of Longest Common Subsequence and Maximal Common Subsequence

Lee, DongYeop;Na, Joong Chae;

doi:10.3745/PKIPS.y2021m11a.15

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2021.11a
/
Pages.15-18
/
2021
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Comparison and Analysis of Lengths of Longest Common Subsequence and Maximal Common Subsequence

최장 공통 부분 서열과 극대 공통 부분 서열의 길이 비교 및 분석

Lee, DongYeop (Dept. of Computer Science, Sejong University) ;
Na, Joong Chae (Dept. of Computer Science, Sejong University)

이동엽 (세종대학교 컴퓨터공학과) ;
나중채 (세종대학교 컴퓨터공학과)

Published : 2021.11.04

https://doi.org/10.3745/PKIPS.y2021m11a.15 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최장 공통 부분 서열(Longest Common Subsequence, LCS)은 서열 유사도(Similarity)를 측정하기 위한 주요 지표 중 하나로 특별한 가정이 없는 한 두 문자열의 LCS 를 계산하기 위해서는 두 문자열의 길이의 곱에 비례하는 시간이 필요하다. 최근 최장(longest)이라는 조건을 극대(maximal)로 완화한 극대 공통 부분 서열(Maximal Common Subsequence, MCS)이 제시되었고, 두 문자열의 MCS 를 선형에 가까운 시간에 찾는 알고리즘이 개발되었다. 극대는 최장을 보장하지 않기 때문에 두 문자열의 MCS 길이는 LCS 길이와 달리 유일하지 않을 수 있고, LCS 길이가 매우 길어도 길이가 1인 MCS가 존재할 수도 있다. 본 논문에서는 기존 알고리즘에 의해 계산되는 MCS 의 효용성을 알아보기 위해, DNA 등 여러 종류의 실제 데이터와 랜덤 생성된 데이터에 대해 LCS 와 MCS 의 길이를 비교했다. MCS 길이는 LCS 길이 대비 실제 데이터에서 32.1 ~ 60.2%, 랜덤 데이터에서는 27.5 ~ 62.9%로 나타났다. 이 비율은 문자열을 이루고 있는 알파벳 수가 많을수록, 문자열의 길이가 길어질수록 감소했다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(2020R1F1A1068873).

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Comparison and Analysis of Lengths of Longest Common Subsequence and Maximal Common Subsequence

최장 공통 부분 서열과 극대 공통 부분 서열의 길이 비교 및 분석

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)