" Garbage in, Garbage out"
" 잘못된 데이터가 들어가면 아무리 좋은 모델이여도 의미가 없다"
1. 이상치
정의: 데이터의 전체적인 패턴에서 동떨어진 관측값

이상치에 영향을 받는 수치
- 평균 : 전체 데이터들의 합을 데이터 개수로 나누어 계산하기에 대표값(평균, 중앙값, 최빈값) 중 항상 이상치에 영향을 받는 값
- 표준편차 : 각 값들과 평균간의 차를 이용하여 계산하므로 이상치에 민감
- 범위 : 최댓값과 최소값 간의 차이이므로 이상치에 가장 영향을 받음
이상치에 영향을 받지 않는 수치
- 중앙값 : 이상치에 영향을 받지 않으므로 극단적인 데이터 분포에서 중심경향성을 측정하는 데에 유용
- 최빈값 : 가장 많이 관측되는 수
- 사분위수 범위(IQR)
- Q1(제1사분위수): 하위 25% 지점의 값
- Q2(제2사분위수): 상위 75% 지점의 값
- IQR: 중간 50%를 포함하는 범위
제거가능 이상치
- 명백한 입력 오류 (예: 나이: 990, 키: -20 )
- 측정 장비 오류 (예: 센서 오작동, 서버 로그 버그)
- 분석 목적과 무관한 극단값 (예: 이상치가 현재 분석 목적과 직접적인 관련이 없을 경우)
- ex) 일반 고객의 평균 소비 패턴을 분석하는 상황에서 극소수의 초고액소비자의 데이터를 삭제
제거 불가능 이상치
- 실제 현상 반영 : 데이터가 보낼 비대칭적이거나 치우친 분포 보유 가능
- 소득, 자산 등 상위 극단값이 자연스럽게 존재한다면 제거 시 이는 현실 왜곡이다
- 핵심 고객/집단 : 전체 중 일부라도 비즈니스적으로 매우 중요할 수 있음
- 매출 상당부분을 담당하는 상위고객을 이상치로 제거하면 조사에 도움이 되지 않는다.
- 표본 수 부족 : 데이터 수가 적을 떄 이상치를 제거하면 대표성이 크게 훼손될 수 있다.
- 작은 데이터셋에서는 극단값도 전체 분포의 중요한 일부일 가능성이 높다.
- 구조적 특성 : 특정 집단이나 조건에서 자연스럽게 발생하는 값일 수 있다.
- 예를 들어 특정 지역, 산업군에서만 나타나는 높은 수치는 집단 특성일 수 있다.
- 미래 위험 신호 : 급격한 매출 변화와 같은 극단값이 미래 문제를 예측하는 데 중요한 전조신호일 수도 있다.
- 이를 제거 시 예측 모델의 활용성이 떨어진다.
2. 결측치
정의: 데이터셋에 특정 값이 누락된 상태
=NA
=NULL
=NAN
결측치 처리 방법
- 제거(데이터 양이 충분할 때)
- 대체 (평균 , 중앙값 , 최빈값 , 특정값 = 예측모델 사용)
3. 정규화
정의: 전체 데이터 값을 0~1 사이의 값으로 치환하는 과정
why? 원본 데이터 상에서 각 변수들 값이 다르고, 크기가 큰 값들이 많은 변수에 대한 영향도가 높아지는 데, 이를 방지할 수 있음
방법
- Min-Max 정규화 : 모든 feature에 대해 각각의 최솟값을 0, 최댓값을 1로 정하고 그 사이의 값들은 0과 1사이의 값으로 변환하는 정규화
- ( X-MIN ) / ( MAX - MIN )
- 이상치에 민감
- Z-Score 정규화 : 이상치를 피하는 정규화 방법
- 데이터를 평균을 기준으로 했을 때 얼마나 떨어져 있는지 변환하는 방법
- ( X- 평균 ) / 표준편차
- Min-Max에 비해 데이터가 분석하기에 좋게 분포
4. 시각화
1) 평균만 보지 말자
- 평균은 여러 데이터들을 하나의 숫자로 보여줄 뿐, 데이터들이 어느 부분에 얼마나 모여 있는지 알려주지 않는다.
- 예: 1반 키 150,150,160,180,190 -> 평균: 166, 2반 키 160 160 170 170 170 ->평균:166
2) 왜도(Skewness)
- 데이터가 한쪽으로 치우친 정도
- 양의 왜도( positive, 오른쪽 값들이 더 적다, ex)소득, 부동산 가격), 음의 왜도(negative, 왼쪽 값들이 더 적다, ex)쉬운 시험난이도에서의 점수)
- 왜도가 중요한 이유: 왜도가 크면 평균과 중앙값이 차이가 꽤 클 수 있으며, 모델 가정이 깨질 수 있다.
- 왜도를 통해 '평균을 믿을 수 있는가'에 대한 답을 얻을 수 있다.
3) 이상치가 불러일으키는 영향
- 평균이 크게 변화
- 회귀선을 끌어당김
- 분산을 증가
- 모델 성능을 저하
'시냅스' 카테고리의 다른 글
| [시냅스2주차]비지도학습과 과적합 (1) | 2026.03.21 |
|---|---|
| [시냅스2주차]지도학습_분류(Classification) (0) | 2026.03.21 |
| [시냅스2주차]지도학습_회귀(Regression) (0) | 2026.03.21 |
| [시냅스 1주차] AI를 위한 필수 수학 & 도구 (1) | 2026.03.16 |
| [시냅스 1주차] AI vs ML vs DL (1) | 2026.03.16 |