전체 글
-
추천 #2) 컨텐츠 기반 모델 - 유사도 함수, TF-IDFREVIEW 2021. 8. 8. 22:51
이 글은 유튜브의 T아카데미에 공개되어있는 추천 시스템 분석 입문하기를 기반으로 작성 되었습니다. 컨텐츠 기반 모델은 사용자가 이전에 구매한 상품 중에서 좋아하는 상품과 유사한 상품을 추천하는 알고리즘이다. 이를 찾는 방법은 아이템을 벡터 형태로 표현하여, 해당 아이템과 유사한 벡터를 가진 다른 아이템을 찾는 방식을 사용한다. 컨텐츠 기반 모델은 아래와 같은 방식으로 진행한다. 유사도 함수는 벡터로 표현된 각 상품간의 관계를 계산하기 위해서 필요한데, 굉장히 다양한 방법이 존재하지만 4가지 방식을 설명한다. 1. 유클리디안 유사도 문서간의 유사도를 계산하기 위한 방식으로 여기서 문서는 지난 편에서 이야기한 거래내역과 같다고 보면 된다. 유클리디안 유사도는 유클리디안 거리의 역을 취한 것으로, 여기서 1e..
-
추천#1) 룰 기반의 연관 분석, Apriori, FP-GrowthREVIEW 2021. 8. 7. 17:37
이 글은 유튜브의 T아카데미에 공개되어있는 추천 시스템 분석 입문하기를 기반으로 작성 되었습니다. 추천 시스템 기초 추천시스템의 목표는 어떤 사용자에게 어떤 상품을 어떻게 추천할지에 대한 것이다. 즉, 사용자를 정의하고, 서비스에서 제공하는 상품(아이템)을 제안하는 기술이다. 이는 다양한 의사결정과 관련이 있다. 예를 들어, 영화나 쇼핑몰에서 사용하기 쉽다. 실제로 당근 마켓의 상품 추천, 카카오 브런치의 글 추천에서도 사용되고 있다. 추천 시스템이 중요해진 이유는 페로토와 롱테일의 법칙을 통해 설명할 수 있다. 페로토 법칙 : 상위 20%가 80%의 가치를 창출한다. 롱테일 법칙 : 하위 80%가 상위 20%의 가치보다 크다. 롱테일의 법칙은 인터넷 환경에서 중요한데, 이는 하위 80%에게 영업기회가 ..
-
CCM 가사에는 어떤 단어가 많이 나올까?PROJECT 2021. 6. 23. 20:44
**이 글은 크리스찬 뉴스레터 마이티 박스에 연재한 글을 수정한 내용임을 밝힙니다. '데이터 저널리즘'이라는 말을 들어본 적 있나요? 단어의 뜻은 풀어본다면, "데이터를 통해서 사실이나 정보 등을 전달하는 활동" 정도로 표현할 수 있을 거 같다. 내가 데이터를 많이 보며 살다 보니, 혹시 '교회와 기독교에 데이터를 통해서 흥미로운 정보를 찾을 수 있지 않을까?' 라는 마음으로 데이터 분석을 해보려 한다. 'Christ Data Journalism' 라는 이름으로 재미난 인사이트를 전달할 예정이다. 시작하기에 앞서서 "이 글은 절대 교회와 하나님, 그리고 창작자의 의도를 데이터라는 것으로 이해하려는 것이 아님"을 밝힙니다. 데이터 저널리즘은 데이터를 깊이 파내어 모으고, 정제하고, 구축하고, 솎아 내어 보..
-
KG#3 ) Translation Model for KC (TransE, TransR 리뷰)REVIEW 2021. 4. 11. 23:50
Knowledge Graph 관련 세번째 글은 앞서 나눈 Knowledge Completion의 접근 방식인 Translation model에 대해서 나누어 보려고 한다. 오늘의 내용은 연구했던 내용과 아래의 논문들을 참고 했다. Translation Model Knowledge Completion(이하 KC)을 해결하기 위한 접근 방식으로 대표적으로 4가지(Translation Model, Semantic Matching Model, Network Representation Model, Neural Network Model)가 있다. 물론 각 접근 방식 안에서도 다양한 분류가 있다. 오늘 이야기할 해결 방식인 Translation Model은 KC 모델들의 기반이 되는 형태로 볼 수 있다. 먼저, KC..
-
KG#2) Knowledge Completion 개념 및 주요 TASKREVIEW 2020. 10. 4. 21:03
Knowledge Graph 관련 두번째 글로 Knowledge의 완전성을 높이기 위한 연구 주제인 Knowledge Completion에 대해서 나누어 보려고 한다. 오늘의 내용은 연구했던 내용과 아래의 논문을 주로 참고 했다. An overview of embedding models of entities and relationships for knowledge base completion, Dat Quoc Nguyen -> 해당 논문은 arxiv를 통해 v8까지 계속해서 업데이트하여 최신 내용이 추가되고 있다. Knowledge Completion Knowledge Completion(지식 완성)은 완전하지 않은 지식 베이스(그래프)를 완성하기 위한 연구 분야이다. 지식 완성을 쉽게 이해하기 위해 간..
-
KG #1) EmbedKGQA : Improving Multi-hop Question Answering over Knowledge Graphs usingKnowledge Base Embeddings 리뷰REVIEW 2020. 7. 23. 17:36
Bert와 같은 언어 모델의 발달로 인해, 다양한 부분에서 KG(Knowledge Graph 혹은 KB, Knowledge Base)의 한계점을 해결했지만. 여전히 Common sense와 같은 분야에서 KG를 사용하지 않을 순 없다. 그렇기에 그래프 구조를 사용하여 다양한 문제를 풀기위한 연구는 지속되고 있고, 이번 리뷰하는 논문 또한, Question Answering over KG에 관한 내용이다. Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings Apoorv Saxena, Aditay Tripathi, Partha Talukdar (Indian Institute of Science,..
-
DataSet paper 리뷰 #1 CoQA : A Conversational Question Answering ChallengeREVIEW 2020. 4. 16. 11:32
abstract 127k Q and A , 8K conversation pasages, QA에 대한 Evidence존재. 대화형 질문이기에 기존의 지문보다 다른 현상을 보임 Introduction 전체 데이터 셋이 대화가 아니라 QA부분만 대화형식 첫번째 목표. 대화 속에서 자연스러운 질문을 찾는것. → 질문이 짧아도(ex. Who?) 의미를 찾을 수 있도록. 두번째 목표. 대화에 자연스러운 답변을 하는 것. 기존의 QA는 주어진 passage에서 부분을 찾아내는 것임. → Free From answer. (dataset ex. MS MARCO, NarrativeQA) → BLEU, ROUGE metric 세번째 목표. 여러 도메인에 적용 가능. 해당 데이터 셋은 Children's stories, li..
-
Attention #1 Attention의 첫 등장REVIEW 2020. 2. 27. 01:50
최근 기술 면접을 여러 번 했다. 최근 프로젝트 중 Seq2seq 모델을 사용하였기 때문에 Attention관련 질문을 많이 받았었고, 컨셉적인 것이 아니라 디테일 한 내용을 이해하기 위해 논문 리딩을 시작하였다. 그 내용을 글로 정리해 본다. 먼저, 처음으로 Attention이 제안된 논문을 리뷰한다. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio (궁금한분이 계실진 모르겠지만, 직접 정리한 논문 링크 NLP를 넘어서서 너무나도 많은 곳에서 사용되는 Attention Mechanism을 처음부터 훑어보고자 시작하는 글이다. 해당 논문의 저자에..