티스토리 뷰

머신러닝

: 미니 프로젝트 발표(kaggle Telco dataset EDA).  머신러닝 기초(분류)

: 인코딩(binary, one-hot).  머신러닝 기초(회귀)

수 : 머신러닝 기초(cv, gradient boost, grid search)

: 인사이트 데이, 예습("K-MOOC  실습으로 배우는 머신러닝")

 

 

  • 회귀의 측정지표 MAE, MSE, RMSE, RMSLE 를 이해하고 사용할 수 있음
  • 지도학습의 분류와 회귀의 차이를 이해하고 알맞은 알고리즘을 선택할 수 있음 
  • 피처 엔지니어링
    • One-Hot-Encoding, Ordinal-Encoding 의 개념을 이해하고 판다스, 사이킷런으로 구현할 수 있음
    • StandardScaling, Min-Max Scaling, Robust Scaling 의 기법을 이해하고 수치데이터를 정규화 할 수 있음
    • 수치데이터를 범주형 데이터로 변환할 수 있음

 

 

분류 Classification

  • 데이터 : Kaggle - Telco Customer Chur
 

Telco Customer Churn

Focused customer retention programs

www.kaggle.com

 

 

GitHub - kjmn1105/LIKELION_AIS: 멋쟁이사자처럼 AI School 8기

멋쟁이사자처럼 AI School 8기. Contribute to kjmn1105/LIKELION_AIS development by creating an account on GitHub.

github.com

 

 

  • 의사결정나무(DecisionTree) :
    • 장점 : whitebox(내부를 들여다 볼 수 있다) => tree를 시각화(graphviz 활용하여 더 선명하게도) 가능
  • 분류모델 평가지표 : Accuracy (정확도) => 예측한 개수와 정답이 몇개나 일치하는가?

 

 

회귀 Regression

  • 데이터 : Kaggle - Bike Sharing Demand
 

Bike Sharing Demand | Kaggle

 

www.kaggle.com

 

 

데이터 누수 Data Leakage 

머신러닝(혹은 kaggle, dacon 대회 참여시) 주의해야 할 사항 ?

  • 미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 의미 → (ex. test 데이터가 모델의 학습에 이용된 경우)
  • 데이터 누수가 발생하면 모델을 사용하여 의사 결정을 내리기 전까지는 모델이 정확해 보이지만 그 이후에는 모델이 매우 부정확해

 

 

 

어렵

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함