들어가기 전에
기계독해(MRC) 강의에 오신걸 환영합니다.🤗 이번 챕터에서는 기계독해에 대한 소개와 기본적인 파이썬 지식들을 점검합니다.
학습 목표
기계독해란 무엇인지, 어떠한 종류가 있는지, 평가는 어떻게 해야할지에 대해 알아봅시다.
핵심 단어
- Machine Reading Comprehension(MRC)
- Exact Match
- ROUGE-L
- BLEU
강의 듣기
들어가기 전에
기계독해(MRC) 강의에 오신걸 환영합니다.🤗 이번 챕터에서는 기계독해에 대한 소개와 기본적인 파이썬 지식들을 점검합니다.
학습 목표
기계독해란 무엇인지, 어떠한 종류가 있는지, 평가는 어떻게 해야할지에 대해 알아봅시다.
핵심 단어
강의 듣기
Machine Reading Comprehension 소개
MRC(Machine reading comprehension)란?
주어진 지문(context)를 이해하고 주어진 질의(Query/Question)의 답변을 추론하는 문제입니다.
MRC의 종류
Extractive Answer Datasets
질의에 대한 답이 항상 주어진 지문의 segment (or span) 으로 존재하는 Dataset입니다.
ex) Cloze Tests
Span Extraction
Descriptive/Narrative Answer Datasets
지문 내에서 추출한 span이 아닌, 질의를 보고 생성된 sentence (or free-form) 형태의 output을 내야하는 task입니다.
Multiple-choice Datasets
질의에 대한 답을 여러 개의 answer candidates 중 하나로 고르는 형태의 task입니다.
Challenges in MRC
Paraphrasing
동일한 의미의 문장을 이해하는 것으로, 조금 더 풀어서 설명하면 단어들의 구성이 유사하지 않지만 동일한 의미의 문장을 이해해야 하는 경우를 말합니다.
Unanswerable questions
지문 내에 답변이 존재하지 않는 경우를 말합니다.
아래의 예제는 later laws는 답변이 아니고 답이 없다고 해야합니다.
Multi-hop reasoning
여러 개의 document에서 질의에 대한 supporting fact를 찾아야지만 답을 찾을 수 있는 task를 말합니다.
MRC의 평가 방법
1. Exact Match / F1 Score
Extractive answer와 multiple-choice answer datasets에 적용하는 평가방법입니다. 완전히 일치하는 답을 찾기 어렵기 때문에 대부분의 점수가 0점이 될 수 있습니다.
<Exact Match>
- 예측한 답과 ground-truth이 정확히 일치하는 샘플의 비율(맞은 sample 수 / 전체 sample 수)
- 예측 값과 정답이 캐릭터 단위로 완전히 똑같을 경우에만 1점 부여 → 하나라도 다른 경우 0점
<F1 Score>
- 예측한 답과 ground-truth 사이의 token overlap을 F1으로 계산
Precision : 불필요하게 예측값이 길어지면 하락합니다.
Recall : 두 token들 중 겹치는 token이 적으면 하락합니다.
0점과 1점 사이의 부분 점수를 받을 수 있음
descriptive answer datasets에서 적용한 metric입니다.
Groud-truth과 예측한 답 사이의 overlap을 계산합니다.
ROUGE-L
LCS (Longest Common Subsequence) 기반으로 계산을 합니다.
prediction과 정답과 겹치는 subsequence 길이가 얼마인지를 봅니다.
BLEU (Bilingual Evaluation Understudy)
예측한 답과 ground-truth 사이의 precision을 구합니다.
BLEU-n 에서 n은 n-gram끼리 겹치는 비율 계산
생각해보기
1) MRC는 실생활에서 어떤 곳에 적용해 볼 수 있을까요?
2) 이번 강의에서 배운 4가지 metric 중 가장 적합하다고 생각하는 것은 무엇인가요? 댓글로 생각을 공유해보세요!
comment