강화학습
데이터 전처리에서 '이상치 처리'가 중요한 이유
miracleai
2024. 8. 22. 10:11
반응형
데이터 전처리에서 '이상치 처리'가 중요한 이유
데이터 전처리 과정에서 이상치 처리가 필요한 이유는 이상치가 여러 머신 러닝 모델과 통계 분석의 성능과 신뢰성에 큰 영향을 미칠 수 있기 때문이다. 그래서 다음과 같은 이유로 ‘이상치 처리’가 중요한 것이다.
1. 통계적 측정에 대한 영향
- 평균과 표준편차: 이상치는 데이터셋의 평균과 표준편차에 큰 영향을 줄 수 있다. 평균은 다양한 계산에서 사용되기 때문에, 이상치가 있으면 이 값이 왜곡되어 잘못된 결론을 도출할 수 있다. 마찬가지로, 데이터의 분포를 나타내는 표준편차도 이상치로 인해 과대평가될 수 있어 실제보다 더 넓은 범위로 보이게 한다.
- 상관관계와 공분산: 이상치는 상관관계와 공분산 계산에 영향을 미쳐 변수 간 관계를 잘못 해석하게 만들 수 있다. 예를 들어, 하나의 극단적인 이상치가 두 변수 사이의 상관관계를 실제보다 더 강하게 보이도록 만들 수 있다.
2. 머신 러닝 모델에 대한 영향
- 모델 민감성: 선형 회귀, 서포트 벡터 머신, K-최근접 이웃(KNN) 같은 많은 머신 러닝 모델들은 이상치에 민감하다. 이상치는 이러한 모델들이 학습한 관계나 결정 경계를 왜곡시켜 모델 성능을 저하시킬 수 있다. 예를 들어, 선형 회귀에서는 하나의 이상치가 회귀선의 기울기를 크게 변화시켜 잘못된 예측을 유도할 수 있다.
- 모델 과적합: 이상치는 모델이 노이즈를 학습하게 만들어 과적합(overfitting)을 초래할 수 있다. 이는 모델의 일반화 능력을 감소시켜 새로운 데이터에 대한 성능이 저하된다.
- 거리 기반 모델: K-평균 군집화, K-최근접 이웃과 같은 거리 기반 모델들은 이상치에 특히 취약하다. 이상치는 거리 계산에 불균형적인 영향을 미쳐 잘못된 군집화나 분류 결과를 초래할 수 있다.
반응형
3. 데이터 무결성과 해석 가능성
- 잘못된 데이터 포인트: 이상치는 데이터 입력 오류, 센서 오작동, 샘플링 오류 등의 오류나 노이즈를 나타낼 수 있다. 이상치 처리를 통해 이러한 잘못된 데이터 포인트가 분석이나 모델 학습을 왜곡하지 않도록 할 수 있다.
- 결과의 해석 가능성: 이상치를 제거하거나 처리하면 결과의 해석 가능성이 향상될 수 있다. 예를 들어, 이상치가 있을 경우 데이터의 명확한 추세나 패턴이 흐려져 의미 있는 결론을 도출하기 어려울 수 있다. 적절히 이상치를 처리함으로써 데이터의 기본적인 추세를 더 명확히 할 수 있다.
4. 모델 강건성 향상
- 강건한 모델: 이상치에 덜 민감하도록 설계된 머신 러닝 모델(예: 강건 회귀)도 극단적인 이상치를 전처리함으로써 더 강건해질 수 있다.
- 오도된 결과 예방: 예측 모델에서 이상치를 제대로 처리하지 않으면 오도된 예측을 초래할 수 있다. 예를 들어, 하나의 이상치가 훈련 데이터에 있을 경우 예측 모델이 극단적인 예측을 할 수 있으며, 이는 대부분의 데이터와 일치하지 않을 수 있다.
5. 데이터셋 간 일관성 유지
- 훈련 및 테스트 데이터 일관성: 훈련 데이터에는 이상치가 있고 테스트 데이터에는 없는 경우, 또는 그 반대의 경우 모델 성능이 일관되지 않을 수 있다. 이러한 일관성 부족은 모델의 실제 성능 평가를 어렵게 하며, 실제 시나리오에서 예기치 않은 결과를 초래할 수 있다.
6. 이상치 처리 기법
- 식별: Z-점수, IQR(사분위 범위) 및 상자 그림(boxplot)과 같은 시각적 방법을 사용하여 이상치를 식별할 수 있다.
- 처리 방법: 식별된 이상치를 다음과 같은 방법으로 처리할 수 있다:
- 제거: 노이즈나 오류로 판단된 이상치는 데이터셋에서 제거할 수 있다.
- 변환: 로그 변환이나 스케일링과 같은 데이터 변환을 통해 이상치의 영향을 줄일 수 있다.
- 대체(임퓨테이션): 이상치를 평균이나 중앙값 같은 더 대표적인 값으로 대체할 수 있다.
- 캡핑(Capping): 특정 임계값을 넘어선 값의 영향을 제한하기 위해 값을 캡핑할 수 있다.
결론적으로 이상치 처리는 분석이나 모델링에 사용되는 데이터가 깨끗하고 일관성이 있으며, 기본 패턴을 정확하게 나타내도록 하기 위해 필요하다. 이상치를 처리함으로써 데이터의 품질이 향상되고, 통계 분석의 신뢰성이 높아지며, 머신 러닝 모델의 성능이 향상되어 더 강건하고 해석 가능한 결과를 얻을 수 있다.
반응형