머신러닝 월 : 미니 프로젝트 발표(kaggle Telco dataset EDA). 머신러닝 기초(분류) 화 : 인코딩(binary, one-hot). 머신러닝 기초(회귀) 수 : 머신러닝 기초(cv, gradient boost, grid search) 목 : 인사이트 데이, 예습("K-MOOC 실습으로 배우는 머신러닝") 회귀의 측정지표 MAE, MSE, RMSE, RMSLE 를 이해하고 사용할 수 있음 지도학습의 분류와 회귀의 차이를 이해하고 알맞은 알고리즘을 선택할 수 있음 피처 엔지니어링 One-Hot-Encoding, Ordinal-Encoding 의 개념을 이해하고 판다스, 사이킷런으로 구현할 수 있음 StandardScaling, Min-Max Scaling, Robust Scaling 의 ..

데이터 관리, 비즈니스 데이터 분석 월 : 미드 프로젝트 발표. 데이터 효율적으로 관리하는 방법(Parquet, downcast) 화 : 비즈니스 데이터 분석 수 : 3.1 목 : 인사이트 데이, 예습("프로젝트로 배우는 데이터사이언스") downcast 를 활용하여 메모리 사용량을 80%이상 줄여 메모리를 효율적으로 사용할 수 있음 열기반 Parquet 형식을 이해하고 파일을 90%까지 압축해서 저장할 수 있음 1. Parquet 데이터, 데이터센터 데이터센터는 항상 열이 발생, 기업은 데이터사용량에 따라 요금 증가 => 데이터를 어떻게 효율적으로 관리할 수 있는가? 저장기기의 성능향상은 한계가 있음. (ex. SSD 1tb 를 늘리는데 10만원이면, 데이터 용량이 늘어났을 때는 …) 데이터의 용량이 ..

EDA 기초 월 : EDA 미니 프로젝트 피드백, 분석하기 좋은(tidy) 데이터란? (0304 전국 신규 아파트분양가 데이터) 화 : melt를 활용한 데이터 전처리 (0305 kosis 수출입데이터) 수 : folium, plotly 를 활용한 지리정보 시각화 (0306 지역별 버거지수 구하기) 목 : 인사이트 데이, 메타인지타임, 미드프로젝트 예고 TIDY DATA : 어떤 데이터가 분석하기 좋은 데이터일까? * “각 변수가 열이고 관측치가 행이 되도록 배열된 데이터” Hadley Wickham, Journal of Statistical Software (http://vita.had.co.nz/papers/tidy-data.pdf) long-form vs wide-form long-form : 변수..

EDA 기초 월 : 웹 스크래핑 미니프로젝트 피드백, EDA 기초 (0301 서울 COVID19 데이터), matplotlib 활용 화 : matplotlib 활용 실습 (0302 FinanceDataReader 데이터) 수 : plotly 활용 실습(0303 미국주식 데이터) 목 : 인사이트 데이, 수료생 특강 matplotlib - pandas : 분석 / numpy : 계산 / matplotlib : 시각화 - 정적 시각화 : 한 번 렌더링된 화면(차트, 그래프) 변경이 되지 않음. - 사용이 복잡하여, 다른 툴(모듈)들과 같이 사용하게 됩니다. 1. 한글 폰트 사용 import pandas as pd import numpy as np import matplotlib.pyplot as plt # 한..