데이터 사이언스/데이터 모델링(3)
-
모델링 꿀팁
####### RandomForest ########### ㅇ 결측값 있으면 자동으로 대체 못함 ㅇ 결측값 처리 꼭 해주고 모델링 해야 ####### Gradient boosting 계열 (XGB, LGBM) ############ ㅇ boosting 방식에 gbdt나 dart를 적용해봐서 하나 선택 ㅇ xg 부스트와 lightgbm을 앙상블 하면 성능이 더 좋게 나옴. 서로 방향을 보완해주기때문 (가중치를 0.5 0.5 나 잘나온거를 0.7로. 강건한 모델을 만들 수 있다.) ㅇ xg 부스트와 lightgbm은 결측값을 안넣어도 처리해주기 때문에 좋은것. 다른 모델은 none값 채워야한다 ㅇ boost 학습 시 범주형시 astype('category') 이렇게 하면 원핫인코딩 한 것 처럼 인식 ㅇ LG..
2021.06.01 -
인공신경망을 활용한 모델링 (이진 분류)
ㅇ 사용된 데이터를 통해 고객이 정기예금을 할지 안할지 예측하는것(이진분류) ㅇ 모듈 임포트 import tensorflow as tf from tensorflow import feature_column from tensorflow.keras import layers from tensorflow.keras.utils import to_categorical, plot_model ㅇ Y를 원핫인코딩 후 인공신경망 CASE # tf 모델을 돌리기 위해 판다스 데이터프레임의 값을 변환 def df_to_dataset(dataframe, shuffle=True, batch_size=32): dataframe = dataframe.copy() labels = dataframe.pop('deposit') labels..
2021.05.08 -
모델 실행 코드
1) KNN ############################################# from sklearn.neighbors import KNeighborsClassifier knn_classification = KNeighborsClassifier(n_neighbors = 3) knn_model = knn_classification.fit(X_train, y_train) (KNN 모델 튜닝) tuned_paramaters = {'n_neighbors': np.arange(1, 25, 2), 'metric': ['hamming','euclidean','manhattan','Chebyshev']} knn_classification = KNeighborsClassifier() knn_grid = ..
2021.05.08