[kaggle] Bike_sharing_demand
https://www.kaggle.com/competitions/bike-sharing-demand/overview
Bike Sharing Demand | Kaggle
www.kaggle.com
참조 :
https://www.kaggle.com/code/kongnyooong/bike-sharing-demand-for-korean-beginners/notebook
[Bike Sharing Demand] for Korean Beginners (한글커널)
Explore and run machine learning code with Kaggle Notebooks | Using data from Bike Sharing Demand
www.kaggle.com
평소 Tabular data를 바탕으로 예측태스크를 해보지 않았던 터라, 이번 과정이 익숙하지 않았다.
해당 커널을 필사하면서, 느꼈던 몇몇 의문들이 있었고
그 의문들을 풀어나갔다.
Q1.
블로그 저자가, temp와 atemp의 다중공선성을 의심했는데
정작 windspeed에서 0을 예측하는 과정에서 atemp가 들어가더라,
그래서 atemp를 뺀 random_forest를 돌렸는데
이것만 해줘도 0.42로 스코어가 오르더라.
Q2.
첨도와 왜도를 건드는데,
타겟 데이터인 count는 log_scale을 취해줘서 정규분포에 가깝게 변형을 시켰으나
casual과 registered는 과정을 건너뛰었다.
심지어 그냥 drop을 해버리는 것을 보고 왜 그런지 의문이 들었다.
A. Test데이터에 casual과 register가 없었기 때문이다 ㅋㅋ
뿐만 아니라, 회귀식에 대한 새로운 정보를 얻었는데
1. corr을 보고 다중공선성을 판단하기는 어려운 일이다.
다중공선성은
Linear Regression과 같은 회귀식을 진행한다면
y = b1x1 + b2x2 ... 와 같은 경우에서
x1과 x2가 선형독립이 아닐 경우에, 모델 전체에 부정적 영향을 미치므로 주의해야한다는 개념이다.
corr끼리 높다면 다중공선성을 의심할 수는 있겠으나 corr이 높다고 무조건 다중공선성을 의심하기는 섣부른 일이다.
(근거부족, 내용 추가 요망)