DOI QR코드

DOI QR Code

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법

Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding

  • 최도진 (창원대학교 컴퓨터공학과) ;
  • 오영호 (충북대학교 빅데이터협동과정) ;
  • 복경수 (원광대학교 인공지능융합학과) ;
  • 유재수 (충북대학교 정보통신공학부)
  • 투고 : 2022.05.09
  • 심사 : 2022.07.19
  • 발행 : 2022.08.28

초록

지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

Labeled graphs are used to represent entities, their relationships, and their structures in real data such as knowledge graphs and protein interactions. With the rapid development of IT and the explosive increase in data, there has been a need for a subgraph matching technology to provide information that the user is interested in. In this paper, we propose an approximate Top-k labeled subgraph matching scheme that considers the semantic similarity of labels and the difference in graph structure. The proposed scheme utilizes a learning model using FastText in order to consider the semantic similarity of a label. In addition, the label similarity graph(LSG) is used for approximate subgraph matching by calculating similarity values between labels in advance. Through the LSG, we can resolve the limitations of the existing schemes that subgraph expansion is possible only if the labels match exactly. It supports structural similarity for a query graph by performing searches up to 2-hop. Based on the similarity value, we provide k subgraph matching results. We conduct various performance evaluations in order to show the superiority of the proposed scheme.

키워드

정보 탐색, 화학 정보학, 소셜 네트워크 서비스 등에서 고유한 특성이나 상태를 가지는 개체들의 다대다 관계를 표현하기 위해 그래프 자료 구조가 사용되고 있다 [1][2]. 일반적으로 그래프는 개체를 표현하는 정점과개체 간 상호작용 및 관계를 나타내는 간선 그리고 객체속성 특징을 정점 레이블로 표시한다. 예를 들어, 소셜 네트워크 서비스에 존재하는 사용자 정보와 친구관계 표현에 사용되거나, 송수신한 데이터 등을 기반으로사용자와 온라인상에서 관계를 갖는 인적 관계 등을파악할 수 있다[3-6].

서브그래프 매칭은 기본적인 그래프 질의 방식 중하나로 질의 그래프를 포함하는 그래프를 검색하는 기법 이다. 예를 들어, 화학 정보학이나 생물 정보학에서는 DNA 염기서열 또는 단백질 아미노산 서열과 같은 모티브 발견을 위하여 질의와 유사한 화합물이나 단백질구조를 찾기 위해 서브그래프 매칭을 사용한다[7]. 서브그래프 매칭은 크게 정확 서브그래프 매칭(exact subgraph matching)과근사 서브그래프 매칭 (approximate subgraph matching)으로 분류된다 [8]. 정확 서브그래프 매칭은 질의 그래프와 정점 및 간선이 모두 정확하게 일치하는 구조와 레이블을 갖는동형의 서브그래프를 검색하는 것으로 전체 그래프에서정확하게 일치하는 서브그래프를 찾는 것은 많은 시간이 소요된다[9-12]. 근사 서브그래프 매칭은 정점, 간 선, 레이블이 일부 일치하지 않더라고 유사한 서브그래프를 검색하는 기법으로 실제 응용에서 많이 활용되고 있다[13].

근사 서브그래프 매칭을 수행하기 위한 다양한 연구가 진행되고 있다[7][8]. 먼저, 데이터 그래프와 질의 그래프에 대해 레이블 기준으로 역색인을 수행하고 정점쌍을 추출하고 이웃 레이블의 분포를 카이제곱 계산을통해 근사 서브그래프를 확장하는 연구가 있다[7]. G-Finder[8]는 질의 그래프의 모든 정점에 대해 LTB(Lookup Table)를 생성하고 BFS(Breadth First Search) 순회를 통해 서브그래프를 검색하는 방법을 제안한다. 그러나 기존 제안된 기법은 데이터 그래프의크기가 증가할수록 데이터 그래프에 대한 색인 비용이

높다는 단점이 존재한다[7]. G-Finder는 서브그래프확장 시 레이블이 정확하게 일치하는 정점 후보에 대해서만 확장이 가능하다는 한계가 존재한다[8].

본 논문에서는 레이블의 의미적 유사도를 고려하기위한 워드 임베딩 기반 근사 Top-k 서브그래프 매칭기법을 제안한다. 제안하는 기법에서는 레이블의 의미적 유사도를 고려하기 위하여 FastText를 학습 모델로 활용한다. 학습된 모델 기반으로 레이블의 의미적 유사성에 따른 근사 서브그래프 매칭을 수행하기 위해 레이블 유사도 그래프(Labeled Similarity Graph, LSG) 구조를 제안한다. 서브그래프 매칭시 2-hop까지 탐색을 지원함으로써 질의 그래프에 대한 구조적 유사성을 지원한다.

본 논문의 구성은 다음과 같다. II장에서는 본논문과관련된 기존 연구를 설명하고 III장에서는 제안하는 근사 서브그래프 매칭 기법을 설명한다. IV장에서는 성능평가를 통해 제안하는 기법의 우수성을 입증한다. 마지막 V장에서는 결론 및 향후 연구에 관해 기술한다.

관련

통상적으로서브그래프 문제는준동형사상 (homomorphism), 동형사상(isomorphsim)으로 볼수 있다. 서브그래프(0, G)는 맵핑 함수 m: Vo→VG 가 있을 때, Vu E VQ; Lo(u) : Lo(m(u))를 만족하고 V(u, v) E EQ, (m(u), m(v)) E Ec를 만족하면 서브그래프 매칭 결과로 볼수 있으며, 이러한 만족을 하는모든조합을 반환한다. 여기서 LG(m(u))는 대상 그래프 G 에서 정점 u의 속성 정보에서 토픽 모델링을 통해 추출된 키워드이며 레이블이라고 정의한다. 그래프 Q의맵핑함수 G가 존재하면 준동형사상이다. 동형사상은 그반대의 경우도 만족한다면 동형사상이라 한다.

이웃 정점 레이블의 분포를 카이제곱 통계값을 계산하여 근사 서브그래프 매칭을 수행한 연구가 존재한다 [7]. 데이터 그래프와 질의 그래프에 대해 레이블 기준으로 역색인을 수행하고, 시작 후보 정점(VP)을 추출한 다. 자카드 유사도를 통한 레이블의 유사도를 지원한다. VP를 기반으로 레이블 Triplet을 생성하고 카이제곱값

계산 후 통계값이 가장 큰 VP를 우선으로 서브그래프를 확장하며 k개의 근사 서브그래프 결과를 얻을 때까지 반복한다.

G-Finder는 한 정점으로부터 그래프 순회를 시작하여 질의 그래프와 일치하는지 찾는 탐색 기반의 서브그래프 매칭을 수행한다[8]. 그래프 순회를 활용하기 때문에 별도의 색인이 필요하지 않고, 중간 결과가 다른기법에 비해 많이 생성되지 않는다는 이점이 있다. 그러나 시작 정점을 정하기 위한 효율적인 비용 모델이 필 요하다. 질의 그래프에 대해 LTB 이라는 구조를 제안및 활용한다. LTB는 질의 그래프 한 정점에 대해 후보정점과 이웃정점의 레이블분포 유사도, IVN(Intermediate Vertex Number)을 저장한다. 질의 그래프의 한 정점으로부터 너비우선탐색을 수행하면서 모든 정점에 대해 LTB를 생성하고, Lookup Table Graph(LTBG)를 구축한다. 서브그래프 매칭 시먼저 유사도 값이 가장 높고, IVN이 낮은 후보 정점을먼저 선택하며 서브그래프를 확장하며 k번 반복한다.

Top-k 서브 그래프 매칭을 수행하기 위하여 Filter-then-verify(FTV) 기법을 사용한 연구도 존재 한다[14]. 그래프 데이터 색인(GTSF) 내의 정점 기반색인(NTF)과 간선 기반 색인(EF)을 기반으로 필터링기법을 적용하여 서브 그래프 매칭을 수행한다. 필터링을 통해 생성된 후보 집합에서 간선의 가중치 합이 가장 높은 k개를 Top-k 결과로 제공한다.

III. 제안하는 근사 Top-k 레이블 서브그래프 매칭 기법

전체 처리구조

본 논문에서는 레이블의 의미적 유사성을 고려한 근사 서브그래프 기법을 제안한다. 레이블의 의미적 유사성을 고려하기 위해서는 데이터 그래프에 대해 워드 임베딩 방법을 통한 학습 모델이 필요하다. 워드 임베딩이란 사람이 사용하는 자연어를 기계가 이해할 수 있는숫자 형태인 벡터로 변환한 것을 말한다. 워드 임베딩을 하게 되면 단어 간 유사한 의미를 군집화하고 벡터연산을 통해 단어 간의 관계를 파악하여 추론이 가능하

다. 대표적인 워드 임베딩 방법으로는 LSA(Latent Semantic Analysis), Word2Vec, GloVe, FastText 등이 존재한다. 제안하는 기법에서는 학습되지 않은레이블이 질의로 들어왔을 때 근사 매칭이 가능한FastText를 학습모델로 활용한다.

[그림 1]은 제안하는 기법의 전체 처리 과정을 보여 준다. 제안하는 기법은 크게 레이블 유사도 그래프 생성 단계와 질의 처리 단계로 구성된다. 레이블 유사도그래프 생성 단계는 데이터 그래프에 대해서 FastText 학습 모델을 사용하여 LSG를 생성한다. 생성된 LSG는서브그래프 매칭 시 레이블의 의미적 유사성에 따른 근사 결과 매칭에 활용된다. 질의 처리 단계에서는 질의그래프와 LSG를 입력받아 매칭 순서를 결정하고, 결정된 매칭 순서에 따라 k개의 근사 서브 그래프 매칭 결과를 제공한다.

2. LSG 생성

[그림 2]는 LSG 생성 단계의 내부 처리 과정을 나타낸 것이다. 먼저 데이터 그래프의 정점 속성 정보로부터 말뭉치(Corpus)를 만들고 워드 임베딩 기법인FastText를 통해 학습 모델을 생성한다. FastText는단어의 의미를 학습하기 위해 사용되는 모델이다. 기존에 자주 활용되는 Word2Vec와 다르게, 단어에 내포된또 다른 단어(subword)를 고려한 학습을 수행한다. 학습 데이터가 충분하다면 해당 애플리케이션에 최적화된 학습 모델이 된다. 학습 모델을 기반으로 데이터 그래프를 너비 우선 탐색(BFS : Breadth First Search) 을 하면서 LSG를 생성한다. LSG의 구조는 레이블이그래프의 정점이 되고, 간선에는 레이블 간 유사도 값을 저장한다. 모든 레이블 간의 유사도 값을 간선에 저장하는 것은 색인의 부하를 발생시킬 수 있기 때문에색인의 부하를 줄이기 위하여 임계값(r)을 설정하고, 레이블 간 계산된 유사도 값이 임계값 보다 높으면간

선에 유사도 값을 저장한다.

그림2. 레이블 유사도 그래프 생성 과정

[그림 3]은 데이터 그래프를 BFS 순회를 하면서 LSG 가 생성되는 예시를 나타낸다. 임계값은 t라고 가정한 다. (a)에서 데이터 그래프 V1 정점을 기준으로 데이터그래프에 대해 BFS 순회를 한다. 이 때 LSG는 정점 V1 의 레이블 A가 정점으로 생성된다. (b)에서는 정점 V1 에서 정점 V2로 탐색 되고, 레이블 B가 LSG에 추가된 다. 이때, 레이블 A와 B의 유사도 값을 계산하고 임계값 C보다 작기 때문에 간선으로 연결되지 않는다. (c) 에서 정점 V3, v4의 레이블 C, A가 탐색 되고, LSG에C가 추가된다. 레이블 C는 레이블 A와 B에 대해 각각유사도 계산 후 임계값 C보다 큰 A-C만 간선으로 연결 한다. 레이블 A는 기존 LSG에 A 정점이 있었으므로 추가되지 않는다. (d)도 동일한 과정으로 LSG에 새로운 D 레이블이 추가되고, 각 레이블 A, B, C에 대해 유사도 계산 후 임계값 보다 큰 레이블 간의 유사도 값이 간선으로 추가된다.

그림 3. 레이블 유사도 그래프 생성 예시

3. 질의 처리

질의 처리 단계에서는 매칭 순서(Matching Order), 근사 매칭(Approximate Matching), Top-k 관리 (Top-k Manage)로 구성되어 있다. [그림 4]는 질의처리 절차를 나타낸다. 매칭 순서 단계에서는 서브그래프를 확장할 시작 정점을 선정하고 데이터 그래프로부터 상응하는 시작 후보 정점 집합을 추출한다. 근사 매칭 단계에서는 추출된 후보 정점을 기준으로 근사 서브그래프 매칭을 수행한다. 근사 서브그래프 매칭 시 일치하는 레이블이 없는 경우, LSG를 활용하여 근사서브그래프 매칭을 수행한다. 매칭 순서에 따라 서브그래프를 확장해 나갈 때마다 유사도 값을 서브 그래프 매칭 결과에 함께 저장한다. Top-k 관리 단계에서는 매칭된 결과의 유사도 값이 가장 높은 k개를 서브 그래프매칭 결과로 반환한다.

그림4. 질의 처리 수행절차

4 매칭 순서

매칭 순서에서는 그래프 탐색 기반의 질의 처리를수행하기 위하여 입력받은 질의그래프에 대해 매칭 순서를 결정하고, 서브그래프 확장을 위하여 데이터 그래프의 후보 정점을 추출한다. [식 1]은 [14]에서 제안한 매칭 순서 기법을 활용한다. INF(umy)는 질의 그래프의모든 간선(ven)에 대한 정보를 나타낸다. d(%)와d(pj)는 을와 uj 정점의 차수를 나타낸다. 그리고f(G.T(y,))와 f(G.T(g)))는 데이터 그래프에서 Vi, py와 동일한 유형의 수를 나타낸다. INF 값이 큰순서대로 서브그래프 매칭 순서를 결정한다.

\(\operatorname { INF } ( v _ { i } , v _ { j } ) = ( \frac { d ( v _ { i } ) } { f ( G , T ( v _ { i } ) } + \frac { d ( v _ { j } ) } { f ( G , T ( v _ { j } ) } ) / 2\)

그림5. INF 값을 이용한 매칭 순서 계산 예시

5. 근사 매층

근사 매칭에서는 결정된 매칭 순서에 따라 서브 그래 프를 확장한다. 서브 그래프 매칭 시 질의 그래프와 얼 마나 유사한지를 레이블 유사도 값으로 계산한다. 매칭 된 서브그래프 최대 유사도 값은 질의그래프의 정점 개 수-1이 된다. 예를 들어, 질의그래프의 정점이 4개이면 최대 유사도 값은 3이 된다. 제안하는 근사 매칭에서는 유사도를 계산할 때 질의를 신장 트리 형태로 나타내어 정점의 유사성만으로 유사도 값을 계산한다. 신장 트리 에서는 간선의 개수가 정점 개수 보다 항상 1 낮기 때 문에 정점이 4개 일 때 유사도 값이 3이 된다. 최종결 과는 유사도 값이 가장 높은 순으로 k 개를 제공한다. 유사도 값을 계산할 때는 완전 일치하면 1. 정점의 유 형이 다른 경우에는 0, 레이블이 다른 경우에는 LSG 그래프를 참고하여 계산한다. 만약 찾고자 하는 레이블 이 없는 경우 해당 레이블과 유사한 레이블을 LSG에서 확인하여 그 유사도를 매칭 유사도로 활용한다.

[그림 6]은 제안하는 근사 서브그래프 매칭에 대한예시를 보여준다. 예를 들어, (a) 데이터 그래프와 이를기반으로 생성된 (c) LSG를 기반으로 (b) 질의 그래프에 대한 질의 처리를 수행한다. [그림 5]에서 데이터 그래프의 유형에 따라 INF(ujaz)가 초기 매칭 간선으로 결정되고 매칭 순서는 (uj,u2), (u1,u3), (uz,u3), (u3,u4)와 같이 서브그래프를 확장한다. 먼저 질의 그래프 ui의 레이블 A와 상응하는 데이터 그래프 후보 정점 은v], V4, v10가 추출된다. 추출된 후보 정점은 질의 그래프 u2의 레이블 B와 상응하는 정점을 탐색한다. 먼저

후보 정점 vj에 대해서 설명하자면, 정점 vi은 레이블B와 일치하는 v2로 연결될 수 있다. 레이블이 완전 일치하면 유사도 값 +1을 부분 그래프와 함께 저장하며, (V1,V2) : 1로 나타낼 수 있다. 다음 매칭 순서(ui,us)에따라 레이블 A와 레이블 C가 연결된 후보 정점인 V3을부분 그래프에 저장하고 유사도 값 +1을 함께 저장하 고, (vi,V2,V3) : 2 로 나타낼 수 있다. (u2,u3) 매칭 순서는 부분 그래프 V2, V3간 연결성을 확인하고, 연결되어있지 않다면 서브그래프 매칭을 중지한다. 마지막으로 (u3,u4) 매칭 순서에 따라 V3과 연결된 레이블 A를 가지는 후보 정점 V4를 선택한다. 이때, 질의 그래프 u4와정점 유형이 다른 경우 유사도 값에 0를 곱하여 계산한 다. 0는 0~ 1 사이 값이며, 여기서는 0.5로 설정되었다고 가정한다. 최종 매칭된 서브 그래프 (VINVNV.V4) 2.5(Gi)를 얻을 수 있다. 후보 정점 V4는 질의 그래프u2의 레이블 B와 상응하는 정점이 없는 경우이다. 이런 경우, LSG에서 레이블 B와 유사한 레이블 D를 탐색하여 (V4V5) 부분 그래프가 매칭되고 유사도 값은 s2/2 가 된다. 계속해서 부분 그래프를 확장하면 파란 테두리의 서브그래프 (V4VSNVVVIO) : 1.5+s2/2(G2)를 얻을수 있다. 본 논문에서는 2-hop까지 이웃 정점 탐색을 지원한다. 예를 들어, 후보 정점 V10은 질의 그래프 u2 의 레이블 B와 상응하는 정점도 없고, 레이블 B와 유사한 레이블 D도 인접한 정점이 없는 경우이다. 이런 경 우, V10은 2-hop 인접한 정점 v8을 부분 그래프로 확장 하고, 부분 그래프 (v10,VC,V8) : 1로 나타낼 수 있다. 계속해서 부분 그래프를 확장해 나가면 초록색 테두리의서브 그래프 (viovgvava.k) : 2(G3)를 얻을 수 있다.

그림6. 근사 서브그래프 매칭 예시

[그림 7]은 제안하는 근사 서브그래프 매칭의 의사 코드를 나타낸다. 입력은 매칭 순서가 기록된 INF 리스 트와 데이터, 질의 그래프, LSG 그래프이며, 상력은 의 결과를 나타낸다. 라인 1에서는 반환할 질의 결과를 초기화한다. 2번 라인에서는 INF에서 가장 높은 INF 값을 가지는 첫 번째 조합 (간선)과 동일한 모든 매칭 정보를 찾는 함수를 수행한다. 너무 많은 매칭 정보를 생성하지 않기 위해서 LSG를 활용하지 않는다. 3~5번 라인부터는 앞서 구한 첫 번째 매칭 정보에 있는 모든 간선 리스트에 대해서 차례대로, INF 순서에 맞게 확장 검색을 수행한다. 이때는 LSG를 활용해야 근사 정보를 찾아낼 수 있기 때문에 LSG를 파라미터로 활용한다. 모든 질의 결과는 유사도 값과 같이 결과 리스트에 저 장되고, 최종적으로 결과값을 반환하여 근사 매칭을종 료한다.

그림7.근사 서브그래프 매칭 알고리즘

6. Top-k 관리

Top-k 관리는 근사 매칭에서 매칭된 서브그래프에 대해 유사도 값 기준으로 Heap에서 관리하고, k개의 결과를 반환한다. [그림 8]은k= 2일 때, Top-k 관리 모듈의 내부 처리 과정을 나타낸다. Top-k Heap에는 초기값으로 공백 상태이다. 매칭된 서브그래프는 Top-k Heap이 가득 찰 때까지 순서대로 G1, G2가저 장된다. Top-k Heap이 가득 차면, Candidate Matching Heap(CMH)에서 유사도 값이 가장 높은 서브그래프와 Top-k Heap에서 유사도 값이 가장 낮 은 서브그래프와 비교하여 갱신한다. G3 서브그래프유

사도 값은 G2 서브그래프 유사도 값보다 크기 때문에 Top-k Heap에 저장되어 있던 G2는 G3로 갱신된다. 만약, G3 서브그래프 유사도 값과 동일하지만, IVN이없는 서브그래프가 있다면 우선순위 IVN이 낮은 서브그래프로 갱신한다[14].

IV 성능평가

제안하는 근사 Top-k 레이블 그래프 매칭 기법의 우 수성을 검증하기 위하여 성능 평가를 수행하였다. [표 1]은 성능 평가를 진행한 실험 환경을 나타낸다. 성능 평가는 Intel(R) Core(TM) i5-9600K CPU 3.70GHz 프로세서, 16GB 메모리를 가지는 시스템에서 Windows 10, 64 비트 운영체제 환경에서 Python 3.8.8을 이용하여 구현하였다. 성능평가를 수행하기 위 해 사용된 데이터 집합으로 DBLP-v10을 사용하였다 [15]. DBLP는 논문을 기준으로 이루어져 있으며, abstract, authors, n_citation, references, title, venue, year, id의 정보로 구성된 JSON 형식의 데이 터 집합이다. 본 논문에서는 논문, 저자, 저널을 기준으 로 그래프를 형성하였으며, 워드 임베딩 FastText을 학습시키기 위한 항목으로 abstract, title 정보를 사용 하였다. 질의 정점은 4개~6개까지 변경해가며 제안하 는 기법의 성능을 측정하였다. 질의 정점의 레이블은 임의로 지정한 분야 정보(Bigdata, Database, IoT등) 을 나타내고, 정점의 유형은 논문, 저자, 저널 3개의 유 형이 존재한다.

표1. 성능평가 환경

기존 기법의 데이터 세트에서 그래프 데이터의 레이 블 형태가 임의로 설정되어 있고 레이블 간의 의미적 유사성을 고려할 수가 없어 자체 성능평가를 진행하였 다. 자체 성능 평가로 제안하는 기법에 대해 질의 처리 속도 측면에서 성능평가를 진행하였다. 전체 실험에서 LSG 임계값은 0.7로 설정하였다. 정점 유형 유사도 값 은 0.5로 고정하여 성능평가를 진행하였다. 먼저 제안 하는 근사 서브그래프 매칭 기법에 대한 그래프 데이터 크기 증가에 따른 처리시간을 비교하고, 질의 그래프 크기 변경에 따른 처리시간을 비교한다.

[그림 9]는 그래프 데이터 크기 증가에 따른 질의 처리 시간 변화의 결과이다. 그래프 데이터 정점의 개수는 10K~100K까지 증가시키면서 질의 처리 속도 변화를 측정하였다. 질의는 단순 질의를 사용하였고, 질의그래프의 크기는 4로 고정하였으며, 10개의 서로 다른질의에 대해 평균 질의 처리 시간을 측정하였다. 가로축은 데이터 그래프 정점의 개수를 나타내고, 세로축은질의 처리 속도, 보조 축은 간선의 개수를 나타낸다. 그래프 정점의 개수가 증가함에 따라 정점에 연결된 간선의 개수도 함께 증가하였고, 질의 처리 시간은 정점의개수보다 간선의 개수 증가와 유사한 증가 폭을 보였 다. 제안하는 기법은 그래프 탐색 기반의 질의 처리를수행하기 때문에 정점과 연결된 간선의 개수가 많아질수록 질의 처리시간의 영향을 더 많이 받는다.

그림9. 그래프 데이터 크기 증가에 따른 처리시간

[그림 10]은 [그림 9]에서 나타난 그래프 정점 수에 따른 질의 처리 시간에 대한 회귀 분석 모형을 나타낸 다. 분석 결과 거듭제곱 형태로 시간이 상승하는 것을 확인할 수 있다. 이때 회귀 모형의 R2 수치는 0.99로 나타나는 것을 확인할 수 있다.

그림 10. 그래프 크기에 따른 처리시간 회귀분석

[그림 11]은 질의 그래프 크기 증가에 따른 질의처 리 시간을 나타낸다. 질의는 단순 질의를 사용하였고 질의 그래프 크기는 4~6으로 증가시키면서 평가를수 행하였고, 마찬가지로 10개의 서로 다른 질의 그래프를 기반으로 데이터 그래프 정점 크기가 50K일 때 평균 질의 처리시간을 측정하였다. 예로, 다음과 같은 질의를 사용하였다. "9-Access-2-Bidata "Character-8-A ntenna-H" "5-Analysis-H-Algorithm-6*, "9-M-F

-Bigdata-10", "1-Inter:net-F-Algorithm-Z-Acces S "Approach-S-Android-T-Online-10*. 여기서숫자는 특정 저널명을 나타내고, 키워드는 그대로 표현 하였으며, H,M,F 등은 사람 이름을 축약하여 표현하였 다. 이러한 질의 그래프에서 크기가 4일 때 처리시간은159.4ms로 측정되었고, 질의 그래프 크기가 5일 때질의 처리 시간은 282.0ms로 약 1.77배 증가한 결과를 보였다. 질의 그래프 크기가 6일 때 질의 처리 시간은 412.1 ms로 (a) 대비 2.58배 증가한 결과를 보였다.

그림11. 질의 그래프 크기 증가에 따른 처리시간

[표 2]는 다양한 질의에 대한 질의 처리 시간 평가결 과이다. 데이터 그래프는 50K이고, 질의 그래프 크기는 4로 수행하였다. 질의 그래프의 형태와 특성에 따라서 최소 46.8ms부터 최대 220.4ms 까지 다양한 질의 처 리 시간 분포를 보였다.

표2. 다양한 질의에 대한 질의 처리 시간

[그림 12]는 그래프 매칭 기법에 따른 질의 처리 시 간 평가 결과이다. 질의 그래프 크기는 4에서 6으로증 가하면서 제안하는 그래프 매칭 기법의 각 조합에 따라 질의 처리 시간을 비교하였다. 그래프 매칭 기법의 조 합은 (a) Exact 서브그래프 매칭, (b) Exact 서브그래

프 매칭 + 근사 서브그래프 매칭, (c) Exact 서브그래프매칭 + 구조적 유사 서브그래프 매칭, (d) Exact 서브그래프 매칭 + 근사 서브그래프 매칭 + 구조적 유사서브그래프 매칭으로 실험 평가를 진행하였다. 먼저 (a) 와 (b)는 질의 그래프 크기가 6인 기준으로 약 18ms 정도의 시간 차이가 발생하였다. 그러나 (a)와 (c)의 경우 최대 2.3배의 처리시간 차이가 발생하였다. 차이가발생하는 이유는 구조적 유사 서브그래프 매칭 시2-hop까지 탐색을 수행하기 때문이다. (c)와 (d)의 질의처리 시간 비교 시 약 7ms차이가 발생하였다. 제안하는기법에서 구조적 유사 서브그래프 매칭을 수행하지 않으면 약 2배의 향상된 질의 처리를 기대할 수 있다.

제안하는 기법은 기존에 정확한 질의를 찾는 서브그래프 매칭 결과와 더불어 더욱 다양한 결과 생성을 위해서 근사 매칭을 추가로 수행한다. 따라서, 추가로 질의 처리시간이 더 소모되는 점이 있지만, 질의 결과 다양성을 제시하는 점에서 사용자가 기존에는 알지 못하였던 추가적인 정보를 제공할 수 있다. 다만 추가 질의처리시간이 많이 소모되는 단점이 있지만, 제안하는 근사 처리 기법 중 구조적 근사 처리 방법은 큰 시간 소모가 들지 않기 때문에 실제 적용에 많은 도움이 될 것으로 예상된다.

그림12. 그래프 매칭 기법에 따른 처리시간 비교

본 논문에서는 정적 데이터 그래프 환경에서 레이블 의 의미적 유사성과 그래프 구조의 차이를 고려하기 위 한 워드 임베딩 기반 근사 Top-k 레이블 서브 그래프 매칭 기법을 제안하였다. 제안하는 기법에서는 레이블 의 의미적 유사도를 고려하기 위하여 데이터 그래프 정 점 속성 정보를 FastText를 학습모델로 활용하였다. 자체 성능 평가를 통해 Exact 서브그래프 매칭과 LSG 를 활용한 근사 서브그래프 매칭의 질의 처리 시간이 크게 차이가 나지 않음을 보였다. 또한, 2-hop까지 탐 색을 지원하는 구조적 유사 서브그래프 매칭을 제안하 였다. 성능 평가를 통해 Exact 서브그래프 매칭 대비 2~2.2배의 질의 처리 속도 차이를 보였다. 제안하는 기 법은 정점 대비 시간 측면으로 보았을 때 0.001초당 44.64개의 정점이 처리할 수 있으며, 간선 대비 시간은 172.34개, 0.017만큼의 그래프 밀도 만큼의 처리가 가 능하다 향후 연구로는 제안하는 기법과 기존 기법 간 의 비교 평가를 수행할 예정이다. 또한 성능적인 측면 과 아울러 기존 다양한 휴리스틱 기법들의 특징 면에서 다양한 분석을 수행할 예정이다.

참고문헌

  1. X. Shan, G. Wang, L. Ding, B. Song, and Y. Xu, "Top-k Subgraph Query Based on Frequent Structure in Large-Scale Dynamic Graphs," IEEE Access, Vol.6, pp.78471-78482, 2018. https://doi.org/10.1109/ACCESS.2018.2885038
  2. H. Yu and D. Yuan, "Subgraph Search in Large Graphs with Result Diversification," Proc. SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, pp.1046-1054, 2014.
  3. R. Kaur and S. Singh, "A Comparative Analysis of Structural Graph Metrics to Identify Anomalies in Online Social Networks," Computers & Electrical Engineering, Vol.57, pp.294-310, 2017. https://doi.org/10.1016/j.compeleceng.2016.11.018
  4. A. B. Sonmez and T. Can, "Comparison of Tissue/disease Specific Integrated Networks using Directed Graphlet Signatures," BMC bioinformatics Vol.18, No.S-4, pp.41-50, 2017. https://doi.org/10.1186/s12859-017-1477-3
  5. A. Salamanis, D. D. Kehagias, C. K. Filelis-Papadopoulos, D. Tzovaras, and G. A. Gravvanis, "Managing Spatial Graph Dependencies in Large Volumes of Traffic Data for Travel-Time Prediction," IEEE Transactions on Intelligent Transportation Systems, Vol.17, No.6, pp.1678-1687, 2016. https://doi.org/10.1109/TITS.2015.2488593
  6. J. Calle-Gomez, J. Rivero, D. Cuadra, and P. Isasi, "Extending ACO for Fast Path Search in Huge Graphs and Social Networks," Expert Systems with Applications, Vol.86, pp.292-306, 2017. https://doi.org/10.1016/j.eswa.2017.05.066
  7. S. Dutta, P. Nayek, and A. Bhattacharya, "Neighbor-Aware Search for Approximate Labeled Graph Matching using the Chi-Square Statistics," Proc. International Conference on World Wide Web, pp.1281-1290, 2017.
  8. L. Liu, Lihui, B. Du, and H. Tong. "G-Finder: Approximate Attributed Subgraph Matching," Proc. IEEE International Conference on Big Data, pp.513-522, 2019.
  9. K. Kim, I. Seo, W. Han, J. Lee, S. Hong, H. Chafi, H. Shin, and G. Jeong, "Turboflux: A Fast Continuous Subgraph Matching System for Streaming Graph Data," Proc. International Conference on Management of Data, pp.411-426, 2018.
  10. W. Chen, J. Liu, Z. Chen, X. Tang, and K. Li, "PBSM: An Efficient Top-K Subgraph Matching Algorithm," International Journal of Pattern Recognition and Artificial Intelligence, Vol.32, No.6, pp.1-23, 2018.
  11. A. Khan, Y. Wu, C. C. Aggarwal, and X. Yan, "Nema: Fast Graph Search with Label Similarity," Proc. of the VLDB Endowment, Vol.6, No.3, pp.181-192, 2013. https://doi.org/10.14778/2535569.2448952
  12. B. Du, S. Zhang, N. Cao, and H. Tong, "First: Fast Interactive Attributed Subgraph Matching," Proc. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.1447-1456, 2017.
  13. Y. Tian and J. M. Patel, "Tale: A Tool for Approximate Large Graph Matching," Proc. International Conference on Data Engineering, pp.963-972, 2008.
  14. X. Shan, C. Jia, L. Ding, X. Ding, B. Song, "Dynamic Top-K Interesting Subgraph Query on Large-Scale Labeled Graphs," Information, Vol.10, No.2, p.61, 2019. https://doi.org/10.3390/info10020061
  15. A. Sinha, X. Shen, Y. Song, H. Ma, D. Eide, B. P. Hsu, and K. Wang, "An Overview of Microsoft Academic Service (MAS) and Applications," Proc. International Conference on World Wide Web Companion, pp.243-246, 2015.