728x90
반응형
train_test_split
- train_test_split 메소드는 기본적으로 학습 feature들을 모은 데이터프레임, class label 칼럼을 input으로 받아 사용하게 됨
- output은 4가지 형태인 X_train, X_test, y_train, y_test의 형태로 등장하며, 기본적으로 feature 부분은 데이터프레임으로, label 부분은 Series의 자료형으로 반환됨
- X_train : 학습 데이터 셋의 feature 부분
- X_test : 테스트 데이터 셋의 feature 부분
- y_train : 학습 데이터 셋의 label 부분
- y_test : 테스트 데이터 셋의 label 부분
- train, test 데이터 셋의 비율을 다르게 설정하고 싶은 경우는 train_size 인자 혹은 test_size 인자 중 1가지를 설정하면 됨
- train, test set 양쪽에서 class 라벨 비율을 같게 정하고 싶다면, stratify 인자를 class 라벨이 들어있는 열로 지정하면 됨
- random_state 인자를 원하는 정수로 설정하면 난수 추출의 seed를 정하여 실행시마다 분리 결과를 고정시킬 수 있으며, shuffle 인자를 False로 설정하면 기존 데이터 셋 내에서의 순서를 기반으로 학습 / 테스트 데이터 셋을 분리할 수 있음
728x90
반응형
'Data Analysis > Machine Learning' 카테고리의 다른 글
MRI and Alzheimers (0) | 2022.05.23 |
---|---|
Seaborn을 활용한 데이터 분포 시각화 17가지 방법 (1) | 2022.05.08 |
StandardScaler를 이용하여 데이터 전처리 (0) | 2022.05.05 |
XGBoost (0) | 2022.05.05 |
댓글