• 제목/요약/키워드: machine learning

검색결과 5,182건 처리시간 0.037초

SVM을 활용한 악성 웹 페이지 분류 (Classification of Malicious Web Pages by Using SVM)

  • 황영섭;문재찬;조성제
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.77-83
    • /
    • 2012
  • 웹 페이지에서 다양한 서비스를 제공하면서 악성코드가 웹 페이지를 통해 배포되는 것도 늘어났다. 악성코드는 개인정보 유출, 시스템의 성능저하, 시스템의 좀비 피씨화 등의 피해를 입힌다. 이런 피해를 막으려면 악성코드가 있는 웹 페이지의 접근을 막아야 한다. 그런데 웹 페이지에 있는 악성코드는 난독화나 변형기법으로 위장하고 있어 기존 안티바이러스 소프트웨어가 사용하는 시그니처 방식의 접근법으로 찾아내기 어렵다. 이를 해결하기 위하여, 웹 페이지를 분석하여 악성 웹 페이지와 양성 웹 페이지를 구별하기 위한 특징을 추출하고, 기계 학습법으로 널리 사용되는 SVM을 통하여 악성 웹 페이지를 분류하는 방법을 제안한다. 제안하는 방법이 우수함을 실험을 통하여 보인다. 제안한 방법으로 악성 웹 페이지를 정확히 분류하면 웹 페이지를 통한악성코드의 배포를 막는데 이바지할 것이다.

안드로이드 OS에서 앱 설치 의사결정 지원을 위한 악성 앱 분류 시스템 (Malware Classification System to Support Decision Making of App Installation on Android OS)

  • 유홍렬;장윤;권태경
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1611-1622
    • /
    • 2015
  • 안드로이드 시스템은 권한 기반의 접근제어 기능을 제공하고, 사용자로 하여금 앱 설치시 앱이 가진 권한을 통해 설치여부를 판단하도록 요구하고 있지만, 대부분의 사용자는 이것을 무시하거나 모르고 지나치는 경향이 있다. 따라서 사용자가 이와 같은 중요한 단계에 주어진 역할을 직관적으로 수행할 수 있도록 하기 위한 개선된 방법이 필요하다. 본 논문에서는 퍼미션 기반 접근제어 시스템을 위해 사용자의 의사결정을 즉각 지원할 수 있는 새로운 기법을 기계학습에 기반하여 연구하고 제안한다. 구체적으로 K-최근접 이웃 알고리즘을 목적에 맞게 수정하여 악성앱 가능성 판단에 대한 연구를 진행하였으며, 특성으로 안드로이드의 권한 152개를 사용했다. 실험 결과 약 93.5%의 정확도를 보였으며 유사한 알고리즘, 혹은 특성으로 권한만을 사용한 기존의 연구결과에 비해 우수한 분류 결과를 보였다. 이는 K-최근접 이웃 알고리즘의 범주 선택시 가중합을 반영했기 때문이다. 본 연구결과는 사용자가 권한을 검토하고 설치할 때 의사결정에 도움을 줄 수 있을 것으로 기대된다.

긍정 데이터 분포를 반영한 다중 인스턴스 지지 벡터 기계 학습 (Learning Multiple Instance Support Vector Machine through Positive Data Distribution)

  • 황중원;박성배;이상조
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.227-234
    • /
    • 2015
  • 본 논문에서는 데이터 분포를 고려한 다중 인스턴스 지지 벡터 기계 학습 알고리즘을 제안한다. 기존의 방법은 긍정 가방 안에서 "가장 긍정"인 인스턴스만 고려하여 마진을 찾는다. 일반적으로 다중 인스턴스로 표현된 데이터에서, 긍정 가방에 포함된 인스턴스들 중 실제로 긍정을 나타내는 인스턴스들은 자질 공간 상에서 서로 유사한 곳에 위치해 있다. 제안한 방법은 기존의 다중 인스턴스 지지 벡터 기계 학습 알고리즘 중에서 긍정 인스턴스들의 교차점을 찾아 이 교차점과 거리를 계산하여 "가장 긍정"인 인스턴스를 선택한다. 긍정 인스턴스들의 교차점인 피벗 포인트를 구하는 방식은 두 가지이다. 먼저, 학습과정 중 추정된 긍정 인스턴스들의 중심점을 사용하는 방법과 학습 시작 시에 가장 긍정일 것으로 예상되는 긍정 인스턴스들의 중심점을 찾는 방법으로 나뉜다. 총 12개의 벤치마크 다중 인스턴스 데이터 셋을 통해 제안한 방법이 기존의 학습 알고리즘에 비해 더 좋은 성능을 보임을 보인다.

학계와 산업계의 정보 대중성 변동과 인용 정보에 기반한 최신 기술 동향 식별 시스템 (An Emerging Technology Trend Identifier Based on the Citation and the Change of Academic and Industrial Popularity)

  • 김선호;이준규;와카스 라시드;여운동
    • 기술혁신학회지
    • /
    • 제14권spc호
    • /
    • pp.1171-1186
    • /
    • 2011
  • 본 연구는 대용량 학술 및 특허 데이터 분석을 기본으로하여 중소 기업이 필요로 하는 유망기술을 도출하는 모형을 제시하고자 하였다. 유망기술 발굴은 국가와 기관의 주요 결정권자가 시간이나 돈과 같은 제한된 자원을 효과적으로 사용할 수 있게 하기 위한 중요한 연구이다. 많은 연구자들이 유망기술 발굴 방법에 대한 연구를 수행하고 있고 모델을 제시하고 있지만 아직까지 더 향상된 방법론의 개발이 필요하다. 이 논문은 학계와 산업계의 데이터를 동시에 이용하여 주어진 기술의 유망 기술 여부를 판단하는 모델을 제안한다. 대부분의 다른 유망기술 발굴 모델과는 다르게 이 논문에서 제안하는 모델은 완전자동 학습 방식이 아닌, 전문가가 개입하는 준-자동 학습 방식의 기계 학습 방법을 이용한다. 이는 학습 속도을 양보하고 대신 정확성을 높이기 위한 방법으로 유망기술 발굴 시스템의 원래 목적에 적당하다. 또한 이 모델은 유망기술 초기 신호를 감지하기 위해 학술 데이터의 인용정보를 분석하여 학습하도록 하였다.

  • PDF

화장품원료 온라인 데이터베이스 구축과 활용 (The practical use with online database program of cosmetics' raw materials.)

  • 전상훈;김주덕
    • 대한화장품학회지
    • /
    • 제29권2호
    • /
    • pp.233-250
    • /
    • 2003
  • 현재 화장품 연구업무 및 수출입업무 종사자들이 많이 사용하고 있는 ICID 및 장원기 등의 화장품 원료규격집과 각종 원료메이커들이 제공하는 원료의 기술자료, MSDS 등의 기술문서를 연관 데이터베이스로 처리하여 인터넷 서버&클라이언트의 구조를 통해 사용자들에게 제공되어질 수 있는 온라인형 데이터베이스 프로그램을 개발하였고, 이를 완성한 도구로서 서버로는 Linux Machine을 사용하였고, 데이터베이스서버로는 MySQL Server를, CGI Tool로는 PHP를 사용하였다. 또한 데이터베이스 구조상 차후 확장성을 대비하여 데이터베이스를 연관구조로 작성하였으며, 이는 데이터의 중복성을 피하여 화장품 원료정보의 검색 효율을 높일 수 있었고, 차후 다른 화장품관련데이터베이스와의 상호 연계의 인터페이스를 마련할 수 있었다. 데이터베이스의 특성상 한번 구축되면 원하는 형태로의 자료변환 및 재구성이 용이하여, 아직까지 화장품 원료 데이터베이스가 구축되어 있지 못한 국내현실을 볼 때 본 프로그램이 화장품업계의 소중한 기초자료로 활용되기를 기대한다.

기계학습기법을 이용한 광고 외식 블로그의 자동분류 (Automatic Classification of Advertising Restaurant Blogs Using Machine Learning Techniques)

  • 장재영;이병준;조세진;한다혜;이규홍
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.55-62
    • /
    • 2016
  • 최근 들어 블로그가 제공하는 정보를 활용하여 외식업소를 선택하는 사용자가 크게 늘고 있다. 그러나 국내의 외식관련 블로그들은 파워 블로거에 의한 광고 블로그들이 다수를 차지하고 있어 신뢰성을 잃은 지 오래다. 따라서 블로그의 신뢰성을 확보하기 위해서는 허위 또는 과장되게 작성된 광고 블로그들을 필터링하는 기술이 필수적이다. 본 논문에서는 자동분류 기술을 이용하여 광고 블로그들을 판별하는 기법을 제안한다. 제안된 기법에서는 우선 외식 블로그들 중에서 광고 블로그로 판명된 블로그들을 수집하고 이들에 공통적으로 나타나는 특징들을 분석하였다. 이렇게 추출된 특징들을 이용하여 데이터 마이닝의 자동 분류 알고리즘을 적용하여 광고 블로그 여부를 판단하였다. 또한 다양한 실험을 통해 최적의 알고리즘과 특징들을 선별하였다.

신경망의 노드 가지치기를 위한 유전 알고리즘 (Genetic Algorithm for Node P겨ning of Neural Networks)

  • 허기수;오일석
    • 전자공학회논문지CI
    • /
    • 제46권2호
    • /
    • pp.65-74
    • /
    • 2009
  • 신경망의 구조를 최적화하기 위해서는 노드 또는 연결을 잘라내는 가지치기 방법과 노드를 추가해 나가는 구조 증가 방법이 있다. 이 논문은 신경망의 구조 최적화를 위해 가지치기 방법을 사용하며, 최적의 노드 가지치기를 찾기 위해 유전 알고리즘을 사용한다. 기존 연구에서는 입력층과 은닉층의 노드를 따로 최적화 대상으로 삼았다 우리는 두 층의 노드를 하나의 염색체에 표현하여 동시 최적화를 꾀하였다. 자식은 부모의 가중치를 상속받는다 학습을 위해서는 기존의 오류 역전파 알고리즘을 사용한다. 실험은 UCI Machine Learning Repository에서 제공한 다양한 데이터를 사용하였다. 실험 결과 신경망 노드 가지치기 비율이 평균 $8{\sim}25%$에서 좋은 성능을 얻을 수 있었다. 또한 다른 가지치기 및 구조 증가 알고리즘과의 교차검증에 대한 t-검정 결과 그들에 비해 우수한 성능을 보였다.

다중 클래스 SVM을 이용한 스마트폰 중독 자가진단 시스템 (Self-diagnostic system for smartphone addiction using multiclass SVM)

  • 피수영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.13-22
    • /
    • 2013
  • 무선으로 응용 프로그램을 다운받아 실행하고 수많은 응용 프로그램들을 통신 접속이 없어도 실행이 가능하다는 점으로 인해 스마트폰 중독이 인터넷 중독보다 심각한 상태이지만 아직까지 스마트폰 중독과 관련된 연구가 부족한 상태이다. 한국정보화진흥원에서 개발한 스마트폰 중독 검사 척도인 S-척도는 문항수가 많아 응답자들이 진단 자체를 회피할 수도 있으며 인구통계학적 변인도 고려하지 않은 상태에서 체크한 문항들에 대한 총점만으로 중독여부를 진단하므로 정확하게 진단하는데 어려움이 있다. 따라서 본 논문에서는 인구통계학적 변인을 포함한 여러 문항들을 추가한 자료들을 대상으로 먼저 스마트폰 중독에 영향을 미치는 중요한 요인들을 추출해 보았다. 추출한 축소문항을 대상으로 데이터마이닝기법 중 하나인 신경망을 이용하여 분류를 하였다. 신경망 학습알고리즘 중에서 BP학습 알고리즘과 다중 SVM을 이용하여 학습을 시켜 비교, 분석 해 본 결과 다중 SVM의 학습율이 조금 더 높게 나타났다. 본 논문에서 제안한 다중 SVM을 이용하여 학습을 한 자가진단 시스템을 이용하면 자료들의 급격한 변화에 대해 뛰어난 적응성을 가지므로 빠른 시간 내에 자신의 중독여부를 정확하게 자가진단 할 수 있다.

QFN 납땜 불량 검출을 위한 효율적인 검사 기법 (Efficient Mechanism for QFN Solder Defect Detection)

  • 김호중;조태훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.367-370
    • /
    • 2016
  • QFN(Quad Flat No-leads package)은 SMD(Surface Mount Device) 자재 중의 하나로써, 납땜을 하는 lead 부분이 따로 있지 않아 납땜에 대한 불량이 많이 발생하고 있다. 따라서 본 논문에서는 QFN의 납땜에 대한 불량을 검출하는 기법을 제안하고자 한다. 우리는 QFN의 납땜에 대한 불량 검출을 위해 기계학습 방법 중 하나인 Convolutional Neural Network(CNN)을 사용하였고, CNN에 학습을 시키기 위한 데이터로는 납땜을 한 QFN 컬러 다단 영상을 사용하였다. 이 영상은 3채널 컬러 영상으로, 이를 바로 CNN에 적용시켜 학습시키기에는 문제가 있다. 그렇기 때문에 3채널 컬러 영상을 세개의 1채널 Grayscale 영상(Red, Green, Blue)로 분리시켜 CNN에 적용시켰다. 이렇게 학습시킨 결과를 이용하여 QFN의 납땜에 대한 불량을 검출할 수 있었다. 현재는 Dicing과 Punch에 대해서만 테스트를 해보았기 때문에, 추후에 이를 제외한 다른 것들에 대한 추가적인 연구가 필요하다.

  • PDF

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.