본문 바로가기
728x90
반응형

Data Analysis/Machine Learning5

MRI and Alzheimers 아래 출처를 통해, Data 분석 및 XGBoost 진행하였음 아직 이해하지 못하거나, 개념적인 부분이 미흡함 개념 부분을 공부해서 정리할 예정 출처 : https://www.kaggle.com/code/shreyaspj/alzheimer-s-analysis-using-mri?scriptVersionId=74709903&cellId=2 ## MRI and Alzheimers # 데이터출처 : https://www.kaggle.com/datasets/jboysen/mri-and-alzheimers In [2]: import tensorflow.compat.v1 as tf from sklearn.metrics import confusion_matrix import numpy as np from scipy.i.. 2022. 5. 23.
Seaborn을 활용한 데이터 분포 시각화 17가지 방법 Seaborn matplotlib 기반의 시각화 라이브러리이며, 유익한 통계 그래픽을 그리기 위한 고급 인터페이스를 제공 Distribution Plot 데이터의 분포를 시각화하는데 도움을 주며, 이 그래프를 사용하여 데이터의 평균(mean), 중위수(median), 범위(range), 분산(variance), 편차(deviation) 등을 이해할 수 있음 Hist Plot 변수에 대한 히스토그램을 표시 하나 혹은 두 개의 변수 분포를 나타내는 전형적인 시각화 도구로 범위에 포함화는 관측수를 세어 표시 KDE Plot 하나 혹은 두 개의 변수우에 대한 분표를 그리며, 절대량이라면 kdeplot은 밀도 추정치를 시각화함 결과물로는 연속된 곡선의 그래프를 얻을 수 있음 ECDF Plot 누적 분포를 시각화하.. 2022. 5. 8.
train_test_split 학습데이터와 테스트데이터 분리 train_test_split train_test_split 메소드는 기본적으로 학습 feature들을 모은 데이터프레임, class label 칼럼을 input으로 받아 사용하게 됨 output은 4가지 형태인 X_train, X_test, y_train, y_test의 형태로 등장하며, 기본적으로 feature 부분은 데이터프레임으로, label 부분은 Series의 자료형으로 반환됨 X_train : 학습 데이터 셋의 feature 부분 X_test : 테스트 데이터 셋의 feature 부분 y_train : 학습 데이터 셋의 label 부분 y_test : 테스트 데이터 셋의 label 부분 train, test 데이터 셋의 비율을 다르게 설정하고 싶은 경우는 train_size 인자 혹은 tes.. 2022. 5. 6.
StandardScaler를 이용하여 데이터 전처리 StandardScaler 평균 = 0 / 표준편차 = 1 (Xi - (X의 평균)) / (X의 표준편차) 표준화 Standardization from sklearn.preprocessing import StandardScaler # Standardization 평균 0 / 분산 1 scaler = StandardScaler() scaler = scaler.fit_transform(data) # 교차검증시 scaler.fit(X_train) X_train = scaler.transform(X_train) X_test = scaler.transform(X_test) 2022. 5. 5.
XGBoost XGBoost Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리 Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있게 사용되는 알고리즘 CART(Classification And Regression Tree) 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 early stopping 제공 GBM 기반이지만, GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제가 해결됨 병렬 CPU 환경에서 병렬학습이 가능하여 기존 GBM보다 빠르게 학습 완료할 수 있음 Ensemble Ensemble은 방식에 따라서 Bagging과 Boosting 으로 분류 Ensemble은 여러개의 모델을 조합해서 그.. 2022. 5. 5.
728x90
반응형