정확도가 학습 초기부터 100%로 나올 때데이터 분할, 모델 설정 또는 데이터셋 전처리 과정에서 생긴 잠재적인 문제일 가능성이 높다. 정확도가 100%가 나온 원인과 이를 해결할 수 있는 방법을 알아보자. 레이블 인코딩을 확인해보자. LabelEncoder가 label_pipeline 안에서 fit_transform을 호출하는데, 이 방식은 각 샘플을 처리할 때마다 전체 데이터에 대해 재적용될 수 있어, 모든 데이터가 같은 값으로 인코딩될 위험이 있다. 이를 방지하려면 한 번만 fit하여 레이블을 미리 인코딩하는 것이 좋다.# 수정 전 코드# 토크나이저 및 레이블 인코더 정의tokenizer = get_tokenizer("basic_english")label_encoder = LabelEncoder()...