2. 표준편차, 왜도, 첨도,이상치 분석_연봉 데이터



1. 데이터 수집

Kaggle 사이트에서 데이터 분석 관련 직업 연봉 리스트 다운받음.

2. 데이터 가공

총 955명중 50명만 선택함.

3. 데이터 분석 및 시각화

샘플 50개 연봉에 대한 평균, 표준편차, 왜도, 첨도

평균은 105.58K로 환율 1$=1000원으로 계산했을때
평균 연봉은 1억 5백만원.
왜도 0.22 : 정규분포(안정적인 데이터)를 갖는다고 판단
첨도 0.08 : 정규분포(안정적인 데이터)를 갖는다고 판단

​* 전반적으로 이상치 없이 안정적인 데이터로 결론

* 평균과 표준편차에 대한 그래프
세로 막대그래프와 오차 막대 (Error Bar)를 사용

표준편차가 작을수록 평균 근처에 분포되어있다는 것을 의미

데이터 이상치란
뜬금없는 값, 이상한 값, 돌연변이

데이터를 분석하기 위해 대표값을 설정하는데
보통 평균을 가장 많이 사용.
위와같이 이상치가 있는경우 데이터는 왜곡되어 있어 올바르게 표현 할 수 없다.
(대표값: 평균, 중앙값, 최빈값등..)

* 데이터에 이상치가 있는지 확인하는 방법

  • 표준편차 : 데이터가 평균값으로부터 좌우로 얼마나 퍼져있는지 판단
    엑셀함수 =STDEV.S(범위)
    .S(Sample를 의미)
    표준편차가 정규분포를 따른다면 데이터 표준편차의 범위는 평균의 95% 안에 있다.
  • 왜도 : 데이터가 얼마나 치우쳐 있는지 나타내는 척도
    정규분포의 범위 : -2 ~ 2 (-3 ~ 3 까지 보기도 함)
    왜도 > 0 : 데이터가 왼쪽으로 치우쳐 있음.
    왜도 < 0 : 데이터가 오른쪽으로 치우쳐 있음.
    엑셀함수 : =SKEW(범위)
  • 첨도 : 데이터가 얼마나 뾰족해지는 정도
    정규분포의 범위 : -8 ~ 8 (-10 ~ 10 까지 보기도 함)
    엑셀함수 : =KURT(범위)

* 이상치를 해결하는 방법

방법1. 왜곡된 데이터를 제거 하는 방법 (이상치제거)
방법2. 중앙값 이용(데이터를 순서대로 배열하고 중간에 있는 값)


Resources

Kaggle _ CSV 파일

  • 오른쪽 상단 [Register] 에서 회원가입 후
  • 왼쪽 상단 [Datasets] 에서 데이터 검색
  • 나같은 경우 ‘salary’ 단어만 입력해서 검색했음
  • https://www.kaggle.com/

 

  1. 매출 데이터 분석_슈퍼마켓
  2. 표준편차, 왜도, 첨도,이상치 분석_연봉 데이터
  3. 상관관계 분석, Countifs, Date_베이커리 매출
  4. 상관관계, 선형회귀선, 기울기_기준금리와 주택 매매 거래량
  5. 가설 검정 독립표본 T 검정, F 검정 대학생 남녀 생활비 분석
  6. 가설검정 대응표본 T 검정 탈모약 복용 전후 분석
  7. 모수적 피어슨 상관관계 소비자 물가 지수 심리지수 분석
  8. 스피어만 상관계수 지역별 신용 카드 사용금액 순위 분석 
  9. 한국 1인가구 소득 소비 패턴