데이터 사이언스(38)
-
라인 플랏
ㅇ 라인 플랏 예시 - 데이터 형태 및 그래프
2021.06.01 -
pickle을 통한 모델 저장
ㅇ 예시
2021.06.01 -
모델링 꿀팁
####### RandomForest ########### ㅇ 결측값 있으면 자동으로 대체 못함 ㅇ 결측값 처리 꼭 해주고 모델링 해야 ####### Gradient boosting 계열 (XGB, LGBM) ############ ㅇ boosting 방식에 gbdt나 dart를 적용해봐서 하나 선택 ㅇ xg 부스트와 lightgbm을 앙상블 하면 성능이 더 좋게 나옴. 서로 방향을 보완해주기때문 (가중치를 0.5 0.5 나 잘나온거를 0.7로. 강건한 모델을 만들 수 있다.) ㅇ xg 부스트와 lightgbm은 결측값을 안넣어도 처리해주기 때문에 좋은것. 다른 모델은 none값 채워야한다 ㅇ boost 학습 시 범주형시 astype('category') 이렇게 하면 원핫인코딩 한 것 처럼 인식 ㅇ LG..
2021.06.01 -
Bayesian-Optimization (베이지안 옵티마이제이션)
ㅇ Bayesian Optimization은 어느 입력값(x)를 받는 미지의 목적 함수(f(x))를 상정하여, 그 함숫값(f(x))을 최대로 만드는 최적해를 찾는 것을 목적 ㅇ 코드 예시 - 모듈 임포트 및 파라미터 정의 후 모델 수행 - init_points=5와 n_iter=100는 결과를 maximize해야되는데 처음 5회는 랜덤값으로 스코어 계산 후 (사전지식) 사전지식을 바탕으로 100회에 대해 최적화 한다는 뜻 - 결과를 바탕으로 모델 재 수행 - 베이지안 옵티마이제이션 사용 전과 사용 후 비교
2021.06.01 -
캣 플랏 (cat plot)
ㅇ 범주형 변수와 수(치)형 변수간 관계 시각화 ㅇ 예시)
2021.06.01 -
바이올린 플랏 (violinplot)
중심선을 따라 대칭인 KDE 플롯이 있다. (KDE 플롯은 이전 포스팅 참고) 가운데 흰색 점은 중앙값(median)을 나타낸다. 바이올린 중앙의 두꺼운 선은 사분위 범위를 나타낸다. 바이올린 중앙의 얇은 선은 신뢰 구간을 나타낸다. (bar plot과 마찬가지로 95% 신뢰 구간이 표시된다.) 결국 바이올린 플롯은 KDE 플롯과 Box 플롯을 하나로 합쳐놓은 형태라고 생각하면 된다 ㅇ 예시)
2021.06.01