-
[kaggle] Bike_sharing_demandCS/ML&DL 2022. 6. 29. 18:35
https://www.kaggle.com/competitions/bike-sharing-demand/overview
참조 :
https://www.kaggle.com/code/kongnyooong/bike-sharing-demand-for-korean-beginners/notebook
평소 Tabular data를 바탕으로 예측태스크를 해보지 않았던 터라, 이번 과정이 익숙하지 않았다.
해당 커널을 필사하면서, 느꼈던 몇몇 의문들이 있었고
그 의문들을 풀어나갔다.
Q1.
블로그 저자가, temp와 atemp의 다중공선성을 의심했는데
정작 windspeed에서 0을 예측하는 과정에서 atemp가 들어가더라,
그래서 atemp를 뺀 random_forest를 돌렸는데
이것만 해줘도 0.42로 스코어가 오르더라.
Q2.
첨도와 왜도를 건드는데,
타겟 데이터인 count는 log_scale을 취해줘서 정규분포에 가깝게 변형을 시켰으나
casual과 registered는 과정을 건너뛰었다.
심지어 그냥 drop을 해버리는 것을 보고 왜 그런지 의문이 들었다.
A. Test데이터에 casual과 register가 없었기 때문이다 ㅋㅋ
뿐만 아니라, 회귀식에 대한 새로운 정보를 얻었는데
1. corr을 보고 다중공선성을 판단하기는 어려운 일이다.
다중공선성은
Linear Regression과 같은 회귀식을 진행한다면
y = b1x1 + b2x2 ... 와 같은 경우에서
x1과 x2가 선형독립이 아닐 경우에, 모델 전체에 부정적 영향을 미치므로 주의해야한다는 개념이다.
corr끼리 높다면 다중공선성을 의심할 수는 있겠으나 corr이 높다고 무조건 다중공선성을 의심하기는 섣부른 일이다.
(근거부족, 내용 추가 요망)
'CS > ML&DL' 카테고리의 다른 글
[pandas] Multiindex의drop 관련 이슈 unhashable type : 'Series' (0) 2022.07.07 [Predict_Future_Sales] 관련 (0) 2022.06.30 [트랜스포머] Vanilla Transformer 관련 (0) 2022.06.13 [Preprocessing] Wavelet Transform (1) (0) 2022.05.30 [issue-sklearn] ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). (0) 2022.05.22