3. 상관관계 분석, Countifs, Date_베이커리 매출


1. 데이터 수집

Kaggle 사이트에서 베이커리 매출 데이터 다운받음.

2. 데이터 전처리 및 가공

기간은 2016년 1월 11일부터 2017년 12월 03일까지 총 8056 매매내역(Transactions)

 

필요한 자료는 Items과 Daypart(시간대별 판매량을 확인하기 위해)
Items은 간단하게 Bread, Cookies, Coffee, Tea, Cake, Coke만 선택

제품과 시간대 두 조건 검색을 위해
Countifs 함수를 사용
=COUNTIFS($B$2:$B$20506,”bread”,$C$2:$C$20506,”morning”)

위 자료만 보면 아침과 점심에 다른 메뉴들 보다 커피와 빵이 잘 팔린다는 것을 알 수 있다.
(베이커리 가게 특성상 당연한일이었음..)

3. 데이터 시각화 및 분석

메뉴들의 Correlation(상관계수) 결과

분석을 해보자면… 가장 높은 관련성이 있는
Bread 와 Coffee : 빵을 10개 판다면 커피는 9.9개를 팔고

Bread 와 Coke : 빵을 10개 판다면 콜라는 6.4개
그럼 콜라하고 관련성이 제일 높은 상품은? Cake??

2. 데이터 다시 전처리

3회(아침,점심,저녁)의 자료 값만 있으니 이 수치를 늘려 보았다.
2017년 4월부터 2017년 12월까지 9개월만 사용
9회 데이터로 정리

​어떤달은 4일치만 있고 어떤달은 모든날짜의 거래내역있었다. (끙..)
해당기간동안은 각 4일치의 거래내역을 갖고 있었음.
데이터의 중요성을 깨닫는 순간이었음.

제품명과 원하는 날짜 조건을 검색하기 위해
CountifsDate 함수를 사용
=COUNTIFS($A$2:$A$4250,”bread”,$B$2:$B$4250,”>=”&DATE(2017,4,1),$B$2:$B$4250,”<=”&DATE(2017,4,31))

3. 데이터 시각화 및 분석

메뉴들의 Correlation(상관계수) 결과

가장 관련성이 높은 Items은 Coffee 와 Salad
관련성이 낮은 Items은 Bread 와 Coke
Coke와 관련성이 높은 상품은 Salad….?

 

* 상관관계 분석
두 변수의 연관성, 유의성 검증(의미가 있는지..)

* 상관관계 분석 절차
1단계 : 유의성 검증
2단계 : 상관계수(r)의 크기를 비교 (어떤 변수와의 관계가 더 큰지..)

​* 상관계수(r)
r의 값은 -1 < r < 1 사이에 있음.
r의 절대값이 클수록 선형관계가 크다는 것을 의미
-,+ 는 관계의 방향을 의미한다.
-는 비례방향
+는 같은방향

예1) 0.461**

0.461은 상관계수(r)를 의미, ** 은 유의성 검증 결과(변수와의 관계에 의미가 있다.)

예2) 조직문화

1) (상사소통) 직무만족 0.556**
변수들간에 관련이 있다. 상사와 소통(+1)을 할 수록 직무만족(+0.556)은 올라간다

2) (형식주의) 직무만족 = -0.207**
변수들간에 관련이 있다. 형식주의가 ‘1’ 만큼 높아질수록 직무만족 -0.207이 낮아진다

​3) (권의주의) 직무만족 = -0.548**

변수들간에 관련이 있다. 권의주의가 ‘1’만큼 높아질수록 직무만족은 -0.548이 낮아진다.

​-> 형식주의와 권의주의가 같은 비율이라 가정 할 때
권의주의가 직무만족을 더 낮게 만든다.


Resources

 Kaggle _ CSV 파일  : Bakery sale 검색

엑셀 상관계수 Correlation Coefficient 내용 참조사이트

통계 상관관계 분석 참조 사이트

 

  1. 매출 데이터 분석_슈퍼마켓
  2. 표준편차, 왜도, 첨도,이상치 분석_연봉 데이터
  3. 상관관계 분석, Countifs, Date_베이커리 매출
  4. 상관관계, 선형회귀선, 기울기_기준금리와 주택 매매 거래량
  5. 가설 검정 독립표본 T 검정, F 검정 대학생 남녀 생활비 분석
  6. 가설검정 대응표본 T 검정 탈모약 복용 전후 분석
  7. 모수적 피어슨 상관관계 소비자 물가 지수 심리지수 분석
  8. 스피어만 상관계수 지역별 신용 카드 사용금액 순위 분석 
  9. 한국 1인가구 소득 소비 패턴