본문 바로가기
Data Analysis/Machine Learning

train_test_split 학습데이터와 테스트데이터 분리

by SeleniumBindingProtein 2022. 5. 6.
728x90
반응형

train_test_split

  • train_test_split 메소드는 기본적으로 학습 feature들을 모은 데이터프레임, class label 칼럼을 input으로 받아 사용하게 됨
  • output은 4가지 형태인 X_train, X_test, y_train, y_test의 형태로 등장하며, 기본적으로 feature 부분은 데이터프레임으로, label 부분은 Series의 자료형으로 반환됨
    • X_train : 학습 데이터 셋의 feature 부분
    • X_test : 테스트 데이터 셋의 feature 부분
    • y_train : 학습 데이터 셋의 label 부분
    • y_test : 테스트 데이터 셋의 label 부분
  • train, test 데이터 셋의 비율을 다르게 설정하고 싶은 경우는 train_size 인자 혹은 test_size 인자 중 1가지를 설정하면 됨
  • train, test set 양쪽에서 class 라벨 비율을 같게 정하고 싶다면, stratify 인자를 class 라벨이 들어있는 열로 지정하면 됨
  • random_state 인자를 원하는 정수로 설정하면 난수 추출의 seed를 정하여 실행시마다 분리 결과를 고정시킬 수 있으며, shuffle 인자를 False로 설정하면 기존 데이터 셋 내에서의 순서를 기반으로 학습 / 테스트 데이터 셋을 분리할 수 있음
728x90
반응형

댓글