자연어처리
-
CCM 가사에는 어떤 단어가 많이 나올까?PROJECT 2021. 6. 23. 20:44
**이 글은 크리스찬 뉴스레터 마이티 박스에 연재한 글을 수정한 내용임을 밝힙니다. '데이터 저널리즘'이라는 말을 들어본 적 있나요? 단어의 뜻은 풀어본다면, "데이터를 통해서 사실이나 정보 등을 전달하는 활동" 정도로 표현할 수 있을 거 같다. 내가 데이터를 많이 보며 살다 보니, 혹시 '교회와 기독교에 데이터를 통해서 흥미로운 정보를 찾을 수 있지 않을까?' 라는 마음으로 데이터 분석을 해보려 한다. 'Christ Data Journalism' 라는 이름으로 재미난 인사이트를 전달할 예정이다. 시작하기에 앞서서 "이 글은 절대 교회와 하나님, 그리고 창작자의 의도를 데이터라는 것으로 이해하려는 것이 아님"을 밝힙니다. 데이터 저널리즘은 데이터를 깊이 파내어 모으고, 정제하고, 구축하고, 솎아 내어 보..
-
DataSet paper 리뷰 #1 CoQA : A Conversational Question Answering ChallengeREVIEW 2020. 4. 16. 11:32
abstract 127k Q and A , 8K conversation pasages, QA에 대한 Evidence존재. 대화형 질문이기에 기존의 지문보다 다른 현상을 보임 Introduction 전체 데이터 셋이 대화가 아니라 QA부분만 대화형식 첫번째 목표. 대화 속에서 자연스러운 질문을 찾는것. → 질문이 짧아도(ex. Who?) 의미를 찾을 수 있도록. 두번째 목표. 대화에 자연스러운 답변을 하는 것. 기존의 QA는 주어진 passage에서 부분을 찾아내는 것임. → Free From answer. (dataset ex. MS MARCO, NarrativeQA) → BLEU, ROUGE metric 세번째 목표. 여러 도메인에 적용 가능. 해당 데이터 셋은 Children's stories, li..