ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • KG#2) Knowledge Completion 개념 및 주요 TASK
    REVIEW 2020. 10. 4. 21:03
    반응형

    Knowledge Graph 관련 두번째 글로 Knowledge의 완전성을 높이기 위한 연구 주제인 Knowledge Completion에 대해서 나누어 보려고 한다. 오늘의 내용은 연구했던 내용과 아래의 논문을 주로 참고 했다.

    An overview of embedding models of entities and relationships for knowledge base completion, Dat Quoc Nguyen
    -> 해당 논문은 arxiv를 통해 v8까지 계속해서 업데이트하여 최신 내용이 추가되고 있다.


    완전하지 않은 Knowledge graph.

    Knowledge Completion

     Knowledge Completion(지식 완성)은 완전하지 않은 지식 베이스(그래프)를 완성하기 위한 연구 분야이다. 지식 완성을 쉽게 이해하기 위해 간단한 예시를 통해 설명하고자 한다. 오른쪽 그림을 보면, 6개의 엔티티와 2종류 (child_of, born_in)의 릴레이션이 존재하는 작은 지식 베이스의 예시인데, 물음표(?)로 표시된 Jane과 Miami 두 엔티티 간의 릴레이션이 누락되어 있다. 이 물음표에 타당한 릴레이션을 찾아서 <Jane, ?, Miami> 트리플을 만들어 내는 것이다. 

     즉, 지식 완성은 불완전한 지식 베이스에 누락된 지식을 찾아내어 지식 그래프를 완성시키는 방법이라고 할 수 있다.

     

    Knowledge Completion 필요성

     이러한 지식 완성 연구를 진행하게 된 계기는 기존에 가장 많이 사용되는 대용량 지식 베이스인 FreeBase와 DBpedia에 누락된 트리플 데이터가 존재한 것을 발견하였기 때분이다. 첫 번째로 DBpedia 2014년 버전에서는 60%의 Person 엔티티에 출생지를 의미하는 place of birth 릴레이션이 누락 되었고, 동일하게 Scientist 엔티티도 58%의 확률로 place of birth 릴레이션이 누락된 것을 확인하였다(

    Type-Constrained Representation Learning in Knowledge Graphs, Krompaß, ISWC 2015). 이렇게 place of birth 릴레이션이 누락된 것으로 판단하는 이유는 실제 데이터를 저장하는 지식 베이스에서 Person과 Scientist 엔티티는 출생지가 당연히 존재하는 것이기 때문이다. 두번째로 Freebase 지식 베이스에서는 Person 엔티티 들이 71%로  place of birth가 누락 되었고, 75%로  국적을 의미하는 nationality가 94%로 부모 관계를 의미하는 parents 릴레이션이 누락되었다. 이와 같이 지식 베이스에 트리플 누락이 되는 이유는 지식 베이스의 생성 과정에서의 문제이다. 일반적으로 지식 베이스 구축은 웹에서 부터 데이터를 수집하는 방법을 사용하고 있는데, 실제 웹페이지에서 데이터가 존재하지 않는 경우와 텍스트나 표와 같은 자연어로 부터 트리플을 추출하는 과정에서 오류가 있을 수 있기 때문이다.

     

    Knowledge Completion TASK

     지식 완성 연구에는 세가지 테스크가 존재한다. Triple Classification 과 Link Prediction, Relation Prediciton이다. 

     1. Triple Classification 

      주어진 트리플 (h, r, t)의 참, 거짓을 알아내는 문제이다. 예를 들어, 위의 그림에서 <Patti, child_of, Mom>이 입력으로 들어왔을때, 참인지 거짓인지를 판별하는 Binary Classification 문제이다.

     

     2. Link Prediction

      Link Prediction은 (h, r, ?) 혹은 (?, r, t)가 주어졌을때, 누락된 ?를 알아내는 문제이다. 일반적으로 ?에 들어갈 엔티티의 확율을 랭킹으로 만들어서 Hit@1,3,5,10의 Metric으로 평가하게 된다. 이 방법은, 엔티티가 누락된 경우에 올바른 엔티티를 찾기위한 목적이라고 볼 수 있다.

     

     3. Relation Prediction

      마지막 Relation Prediction은 (h, ?, t)가 주어진 경우, 즉 두개의 엔티티가 주어진 경우에 올바른 릴레이션을 찾아내는 문제이다. Link Prediction과 동일하게 Hit@1,3,5,10으로 평가하고, 가장 적은 빈도로 사용하는 문제이다. 

     

    지금까지 지식완성의 개론에 대해서 알아 봤는데, 다음은 지식완성의 가장 기본적인 방법인 Translation method에 대해 나눠보려 한다. 

     

    반응형

    댓글

Designed by Tistory.