[시냅스 1주차] 데이터 전처리와 시각화

시냅스

[시냅스 1주차] 데이터 전처리와 시각화

yeondu428 2026. 3. 16. 16:59

" Garbage in, Garbage out"

" 잘못된 데이터가 들어가면 아무리 좋은 모델이여도 의미가 없다"

1. 이상치

정의: 데이터의 전체적인 패턴에서 동떨어진 관측값

이상치에 영향을 받는 수치

평균 : 전체 데이터들의 합을 데이터 개수로 나누어 계산하기에 대표값(평균, 중앙값, 최빈값) 중 항상 이상치에 영향을 받는 값
표준편차 : 각 값들과 평균간의 차를 이용하여 계산하므로 이상치에 민감
범위 : 최댓값과 최소값 간의 차이이므로 이상치에 가장 영향을 받음

이상치에 영향을 받지 않는 수치

중앙값 : 이상치에 영향을 받지 않으므로 극단적인 데이터 분포에서 중심경향성을 측정하는 데에 유용
최빈값 : 가장 많이 관측되는 수
사분위수 범위(IQR)
- Q1(제1사분위수): 하위 25% 지점의 값
- Q2(제2사분위수): 상위 75% 지점의 값
- IQR: 중간 50%를 포함하는 범위

제거가능 이상치

명백한 입력 오류 (예: 나이: 990, 키: -20 )
측정 장비 오류 (예: 센서 오작동, 서버 로그 버그)
분석 목적과 무관한 극단값 (예: 이상치가 현재 분석 목적과 직접적인 관련이 없을 경우)
- ex) 일반 고객의 평균 소비 패턴을 분석하는 상황에서 극소수의 초고액소비자의 데이터를 삭제

제거 불가능 이상치

실제 현상 반영 : 데이터가 보낼 비대칭적이거나 치우친 분포 보유 가능
- 소득, 자산 등 상위 극단값이 자연스럽게 존재한다면 제거 시 이는 현실 왜곡이다
핵심 고객/집단 : 전체 중 일부라도 비즈니스적으로 매우 중요할 수 있음
- 매출 상당부분을 담당하는 상위고객을 이상치로 제거하면 조사에 도움이 되지 않는다.
표본 수 부족 : 데이터 수가 적을 떄 이상치를 제거하면 대표성이 크게 훼손될 수 있다.
- 작은 데이터셋에서는 극단값도 전체 분포의 중요한 일부일 가능성이 높다.
구조적 특성 : 특정 집단이나 조건에서 자연스럽게 발생하는 값일 수 있다.
- 예를 들어 특정 지역, 산업군에서만 나타나는 높은 수치는 집단 특성일 수 있다.
미래 위험 신호 : 급격한 매출 변화와 같은 극단값이 미래 문제를 예측하는 데 중요한 전조신호일 수도 있다.
- 이를 제거 시 예측 모델의 활용성이 떨어진다.

2. 결측치

정의: 데이터셋에 특정 값이 누락된 상태

=NA

=NULL

=NAN

결측치 처리 방법

제거(데이터 양이 충분할 때)
대체 (평균 , 중앙값 , 최빈값 , 특정값 = 예측모델 사용)

3. 정규화

정의: 전체 데이터 값을 0~1 사이의 값으로 치환하는 과정

why? 원본 데이터 상에서 각 변수들 값이 다르고, 크기가 큰 값들이 많은 변수에 대한 영향도가 높아지는 데, 이를 방지할 수 있음

방법

Min-Max 정규화 : 모든 feature에 대해 각각의 최솟값을 0, 최댓값을 1로 정하고 그 사이의 값들은 0과 1사이의 값으로 변환하는 정규화
- ( X-MIN ) / ( MAX - MIN )
- 이상치에 민감

Z-Score 정규화 : 이상치를 피하는 정규화 방법
- 데이터를 평균을 기준으로 했을 때 얼마나 떨어져 있는지 변환하는 방법
- ( X- 평균 ) / 표준편차
- Min-Max에 비해 데이터가 분석하기에 좋게 분포

4. 시각화

1) 평균만 보지 말자

평균은 여러 데이터들을 하나의 숫자로 보여줄 뿐, 데이터들이 어느 부분에 얼마나 모여 있는지 알려주지 않는다.
예: 1반 키 150,150,160,180,190 -> 평균: 166, 2반 키 160 160 170 170 170 ->평균:166

2) 왜도(Skewness)

데이터가 한쪽으로 치우친 정도
양의 왜도( positive, 오른쪽 값들이 더 적다, ex)소득, 부동산 가격), 음의 왜도(negative, 왼쪽 값들이 더 적다, ex)쉬운 시험난이도에서의 점수)
왜도가 중요한 이유: 왜도가 크면 평균과 중앙값이 차이가 꽤 클 수 있으며, 모델 가정이 깨질 수 있다.
왜도를 통해 '평균을 믿을 수 있는가'에 대한 답을 얻을 수 있다.

3) 이상치가 불러일으키는 영향

평균이 크게 변화
회귀선을 끌어당김
분산을 증가
모델 성능을 저하

'시냅스' 카테고리의 다른 글

[시냅스2주차]비지도학습과 과적합 (1)	2026.03.21
[시냅스2주차]지도학습_분류(Classification) (0)	2026.03.21
[시냅스2주차]지도학습_회귀(Regression) (0)	2026.03.21
[시냅스 1주차] AI를 위한 필수 수학 & 도구 (1)	2026.03.16
[시냅스 1주차] AI vs ML vs DL (1)	2026.03.16

현재글[시냅스 1주차] 데이터 전처리와 시각화

yeondu428 님의 블로그

yeondu428 님의 블로그 입니다.

선형대수학, 덕성여자대학교, 인공지능 #AI #데이터 #ML #DL, #BDAI #데이터분석 #데이터분석학회 #대학생학회 #취업 #취업준비 #대외활동 #대학생활 #수업후기, 머신러닝 #지도학습 #분류 #AI, 인공지능, 선형대수, Plan, 동아리, 부스트코드, 딥러닝, 기획, 퍼셉트론, UMC, 앱개발, 부스트코스, 기술블로그, 부스트코스 #인공지능 #선형대수, 인공신경망,

Today :
Yesterday :

yeondu428 님의 블로그

[시냅스 1주차] 데이터 전처리와 시각화

'시냅스' 카테고리의 다른 글

'시냅스'의 다른글

티스토리툴바

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

[시냅스 1주차] 데이터 전처리와 시각화

'시냅스' 카테고리의 다른 글

'시냅스'의 다른글

관련글

티스토리툴바