데이터 사이언스(38)
-
모듈 불러오기
# import 'os' import os # import 'Pandas' import pandas as pd # import 'Numpy' import numpy as np # import subpackage of Matplotlib import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap # import 'Seaborn' import seaborn as sns # to suppress warnings from warnings import filterwarnings filterwarnings('ignore') # import train-test split from sklearn.model_selection import tr..
2021.05.04 -
데이터 불러올 때 유용한 정보 (read_csv)
1) index_col 지정하기 EX) movies_df = pd.read_csv(os.path.join(path, 'movies.csv'), index_col='movieId', encoding='utf-8') 'movield'라는 변수가 있고 데이터가 1,3,5,6 이렇게 띄엄 띄엄 돼 있을 때 index_col 을 지정하게 되면 1,2,3,4 로 인덱스 를 재구성해줌. 2) thousand = ',' 지정하기 EX) train_qual = pd.read_csv(PATH+'train_quality_data.csv', thousands=',') thousands=',' 를 지정해주면 처음 받은 csv 파일에서 10,000 와 같이 쉼표로 구분 돼 있을 경우 ',' 를 제거하고 데이터 프레임 출력
2021.04.24