자연어 추론(Natural Language Inference, NLI)은 주어진 전제(Premise)와 가설(Hypothesis)의 논리적 관계를 분류하는 작업이다. 모델은 두 문장을 입력받아 다음 세 가지 관계 중 하나를 예측해야 한다.
Final Table| Step | Description | Leaderboard |
|---|---|---|
| Baseline | RoBERTa-large | 0.836 |
| + 3-Fold Cross Validation | RoBERTa-large + K-Fold | 0.867 |
| + KLUE-dev Augmentation | K-Fold + KLUE-dev | 0.883 |
| + R-Drop | KLUE-dev + R-Drop | 0.889 |
| + Ensemble | Final Weighted Ensemble | 0.894 |
한국어 NLI 문장 관계 분류에서 모델은 특히 neutral과 다른 클래스(entailment, contradiction) 사이의 경계에서 많은 오분류를 보였다.
Hold-out 분석(validation set) 결과 neutral 클래스의 오분류율이 가장 높았으며, 오답 중 상당수가 높은 confidence를 동반하여 단순한 데이터 부족뿐 아니라 경계 학습과 예측 안정성 측면의 개선이 필요했다.

klue/roberta-large-kfold3