CS/ML&DL

[kaggle] Bike_sharing_demand

JDJ 2022. 6. 29. 18:35

https://www.kaggle.com/competitions/bike-sharing-demand/overview

 

Bike Sharing Demand | Kaggle

 

www.kaggle.com

참조 :

 

https://www.kaggle.com/code/kongnyooong/bike-sharing-demand-for-korean-beginners/notebook

 

[Bike Sharing Demand] for Korean Beginners (한글커널)

Explore and run machine learning code with Kaggle Notebooks | Using data from Bike Sharing Demand

www.kaggle.com

 

평소 Tabular data를 바탕으로 예측태스크를 해보지 않았던 터라, 이번 과정이 익숙하지 않았다.

해당 커널을 필사하면서, 느꼈던 몇몇 의문들이 있었고

그 의문들을 풀어나갔다.

 

Q1. 

 

 

블로그 저자가, temp와 atemp의 다중공선성을 의심했는데

정작 windspeed에서 0을 예측하는 과정에서 atemp가 들어가더라,

그래서 atemp를 뺀 random_forest를 돌렸는데

이것만 해줘도 0.42로 스코어가 오르더라.

 

 

Q2. 

 

첨도와 왜도를 건드는데,

 

타겟 데이터인 count는 log_scale을 취해줘서 정규분포에 가깝게 변형을 시켰으나

casual과 registered는 과정을 건너뛰었다.

심지어 그냥 drop을 해버리는 것을 보고 왜 그런지 의문이 들었다.

 

A. Test데이터에 casual과 register가 없었기 때문이다 ㅋㅋ 

 

뿐만 아니라, 회귀식에 대한 새로운 정보를 얻었는데

 

1. corr을 보고 다중공선성을 판단하기는 어려운 일이다.

 

다중공선성은 

Linear Regression과 같은 회귀식을 진행한다면

y = b1x1 + b2x2 ... 와 같은 경우에서

x1과 x2가 선형독립이 아닐 경우에, 모델 전체에 부정적 영향을 미치므로 주의해야한다는 개념이다.

 

corr끼리 높다면 다중공선성을 의심할 수는 있겠으나 corr이 높다고 무조건 다중공선성을 의심하기는 섣부른 일이다.

(근거부족, 내용 추가 요망)