본문 바로가기

그래, 어서 들어오고!!
그래, 천천히 보고 가렴~~ 바로가기

Data Analysis/Machine Learning

train_test_split 학습데이터와 테스트데이터 분리

by SeleniumBindingProtein 2022. 5. 6.

728x90

train_test_split

train_test_split 메소드는 기본적으로 학습 feature들을 모은 데이터프레임, class label 칼럼을 input으로 받아 사용하게 됨
output은 4가지 형태인 X_train, X_test, y_train, y_test의 형태로 등장하며, 기본적으로 feature 부분은 데이터프레임으로, label 부분은 Series의 자료형으로 반환됨
- X_train : 학습 데이터 셋의 feature 부분
- X_test : 테스트 데이터 셋의 feature 부분
- y_train : 학습 데이터 셋의 label 부분
- y_test : 테스트 데이터 셋의 label 부분

train, test 데이터 셋의 비율을 다르게 설정하고 싶은 경우는 train_size 인자 혹은 test_size 인자 중 1가지를 설정하면 됨
train, test set 양쪽에서 class 라벨 비율을 같게 정하고 싶다면, stratify 인자를 class 라벨이 들어있는 열로 지정하면 됨
random_state 인자를 원하는 정수로 설정하면 난수 추출의 seed를 정하여 실행시마다 분리 결과를 고정시킬 수 있으며, shuffle 인자를 False로 설정하면 기존 데이터 셋 내에서의 순서를 기반으로 학습 / 테스트 데이터 셋을 분리할 수 있음

728x90

'Data Analysis > Machine Learning' 카테고리의 다른 글

MRI and Alzheimers (0)	2022.05.23
Seaborn을 활용한 데이터 분포 시각화 17가지 방법 (1)	2022.05.08
StandardScaler를 이용하여 데이터 전처리 (0)	2022.05.05
XGBoost (0)	2022.05.05

댓글

티스토리툴바