시냅스

[시냅스 1주차] 데이터 전처리와 시각화

yeondu428 2026. 3. 16. 16:59

 

" Garbage in, Garbage out"

" 잘못된 데이터가 들어가면 아무리 좋은 모델이여도 의미가 없다"

 


1. 이상치

정의: 데이터의 전체적인 패턴에서 동떨어진 관측값

 

 

이상치에 영향을 받는 수치  

  • 평균 : 전체 데이터들의 합을 데이터 개수로 나누어 계산하기에 대표값(평균, 중앙값, 최빈값) 중 항상 이상치에 영향을 받는 값
  • 표준편차 : 각 값들과 평균간의 차를 이용하여 계산하므로 이상치에 민감
  • 범위 : 최댓값과 최소값 간의 차이이므로 이상치에 가장 영향을 받음

 
이상치에 영향을 받지 않는 수치 

  • 중앙값 : 이상치에 영향을 받지 않으므로 극단적인 데이터 분포에서 중심경향성을 측정하는 데에 유용
  • 최빈값 : 가장 많이 관측되는 수
  • 사분위수 범위(IQR)
    • Q1(제1사분위수): 하위 25% 지점의 값
    • Q2(제2사분위수): 상위 75% 지점의 값
    • IQR: 중간 50%를 포함하는 범위

 
 
 
제거가능 이상치

  • 명백한 입력 오류 (예:  나이: 990, 키: -20 )
  • 측정 장비 오류 (예:  센서 오작동, 서버 로그 버그)
  • 분석 목적과 무관한 극단값 (예: 이상치가 현재 분석 목적과 직접적인 관련이 없을 경우)
    • ex) 일반 고객의 평균 소비 패턴을 분석하는 상황에서 극소수의 초고액소비자의 데이터를 삭제


 
 

 
제거 불가능 이상치

  • 실제 현상 반영 : 데이터가 보낼 비대칭적이거나 치우친 분포 보유 가능
    • 소득, 자산 등 상위 극단값이 자연스럽게 존재한다면 제거 시 이는 현실 왜곡이다
  • 핵심 고객/집단 : 전체 중 일부라도 비즈니스적으로 매우 중요할 수 있음
    • 매출 상당부분을 담당하는 상위고객을 이상치로 제거하면 조사에 도움이 되지 않는다.
  • 표본 수 부족 : 데이터 수가 적을 떄 이상치를 제거하면 대표성이 크게 훼손될 수 있다.
    • 작은 데이터셋에서는 극단값도 전체 분포의 중요한 일부일 가능성이 높다.
  • 구조적 특성 : 특정 집단이나 조건에서 자연스럽게 발생하는 값일 수 있다.
    • 예를 들어 특정 지역, 산업군에서만 나타나는 높은 수치는 집단 특성일 수 있다.
  • 미래 위험 신호 : 급격한 매출 변화와 같은 극단값이 미래 문제를 예측하는 데 중요한 전조신호일 수도 있다.
    • 이를 제거 시 예측 모델의 활용성이 떨어진다.

 

2. 결측치

 정의: 데이터셋에 특정 값이 누락된 상태

=NA 

=NULL

=NAN

 

 

결측치 처리 방법

  • 제거(데이터 양이 충분할 때)
  • 대체 (평균 , 중앙값 , 최빈값 , 특정값 = 예측모델 사용)

 

3. 정규화

정의: 전체 데이터 값을 0~1 사이의 값으로 치환하는 과정

why? 원본 데이터 상에서 각 변수들 값이 다르고, 크기가 큰 값들이 많은 변수에 대한 영향도가 높아지는 데, 이를 방지할 수 있음

 

방법

  • Min-Max 정규화 : 모든 feature에 대해 각각의 최솟값을 0, 최댓값을 1로 정하고  그 사이의 값들은 0과 1사이의 값으로 변환하는 정규화
    • ( X-MIN ) / ( MAX - MIN )
    • 이상치에 민감
  • Z-Score 정규화 : 이상치를 피하는 정규화 방법
    • 데이터를 평균을 기준으로 했을 때 얼마나 떨어져 있는지 변환하는 방법
    • ( X- 평균 ) / 표준편차
    • Min-Max에 비해 데이터가 분석하기에 좋게 분포

 

4. 시각화

1) 평균만 보지 말자

  • 평균은 여러 데이터들을 하나의 숫자로 보여줄 뿐, 데이터들이 어느 부분에 얼마나 모여 있는지 알려주지 않는다.
  • 예: 1반 키 150,150,160,180,190  -> 평균: 166,  2반 키 160 160 170 170 170 ->평균:166

 
2) 왜도(Skewness)

  • 데이터가 한쪽으로 치우친 정도
  • 양의 왜도( positive, 오른쪽 값들이 더 적다, ex)소득, 부동산 가격), 음의 왜도(negative, 왼쪽 값들이 더 적다, ex)쉬운 시험난이도에서의 점수)
  • 왜도가 중요한 이유: 왜도가 크면 평균과 중앙값이 차이가 꽤 클 수 있으며, 모델 가정이 깨질 수 있다.
  • 왜도를 통해 '평균을 믿을 수 있는가'에 대한 답을 얻을 수 있다.

 
3) 이상치가 불러일으키는 영향

  • 평균이 크게 변화
  • 회귀선을 끌어당김
  • 분산을 증가
  • 모델 성능을 저하