728x90 반응형 Data Analysis37 window 할당 방식 pyflink 라이브러리를 이용 1. 텀블링(Tumbling) 윈도우: 설명: 텀블링 윈도우는 일정한 크기의 고정 시간 간격으로 데이터를 처리하는 방식입니다. 각 윈도우는 서로 겹치지 않고, 데이터 스트림이 일정 시간 간격으로 분리되어 처리됩니다. 예제 코드: tumbling_window_result = data_stream\ .key_by(lambda x: x[0])\ .window(TumblingEventTimeWindows.of(Time.seconds(5)))\ .reduce(lambda x, y: (x[0], x[1] + y[1])) 예제 설명: 데이터 스트림을 5초 단위로 처리하도록 텀블링 윈도우를 설정하였습니다. 각 윈도우에서는 동일한 키를 가진 데이터가 모여서 합산되어 출력됩니다. 2. 슬라.. 2024. 2. 1. MRI and Alzheimers 아래 출처를 통해, Data 분석 및 XGBoost 진행하였음 아직 이해하지 못하거나, 개념적인 부분이 미흡함 개념 부분을 공부해서 정리할 예정 출처 : https://www.kaggle.com/code/shreyaspj/alzheimer-s-analysis-using-mri?scriptVersionId=74709903&cellId=2 ## MRI and Alzheimers # 데이터출처 : https://www.kaggle.com/datasets/jboysen/mri-and-alzheimers In [2]: import tensorflow.compat.v1 as tf from sklearn.metrics import confusion_matrix import numpy as np from scipy.i.. 2022. 5. 23. Seaborn을 활용한 데이터 분포 시각화 17가지 방법 Seaborn matplotlib 기반의 시각화 라이브러리이며, 유익한 통계 그래픽을 그리기 위한 고급 인터페이스를 제공 Distribution Plot 데이터의 분포를 시각화하는데 도움을 주며, 이 그래프를 사용하여 데이터의 평균(mean), 중위수(median), 범위(range), 분산(variance), 편차(deviation) 등을 이해할 수 있음 Hist Plot 변수에 대한 히스토그램을 표시 하나 혹은 두 개의 변수 분포를 나타내는 전형적인 시각화 도구로 범위에 포함화는 관측수를 세어 표시 KDE Plot 하나 혹은 두 개의 변수우에 대한 분표를 그리며, 절대량이라면 kdeplot은 밀도 추정치를 시각화함 결과물로는 연속된 곡선의 그래프를 얻을 수 있음 ECDF Plot 누적 분포를 시각화하.. 2022. 5. 8. train_test_split 학습데이터와 테스트데이터 분리 train_test_split train_test_split 메소드는 기본적으로 학습 feature들을 모은 데이터프레임, class label 칼럼을 input으로 받아 사용하게 됨 output은 4가지 형태인 X_train, X_test, y_train, y_test의 형태로 등장하며, 기본적으로 feature 부분은 데이터프레임으로, label 부분은 Series의 자료형으로 반환됨 X_train : 학습 데이터 셋의 feature 부분 X_test : 테스트 데이터 셋의 feature 부분 y_train : 학습 데이터 셋의 label 부분 y_test : 테스트 데이터 셋의 label 부분 train, test 데이터 셋의 비율을 다르게 설정하고 싶은 경우는 train_size 인자 혹은 tes.. 2022. 5. 6. StandardScaler를 이용하여 데이터 전처리 StandardScaler 평균 = 0 / 표준편차 = 1 (Xi - (X의 평균)) / (X의 표준편차) 표준화 Standardization from sklearn.preprocessing import StandardScaler # Standardization 평균 0 / 분산 1 scaler = StandardScaler() scaler = scaler.fit_transform(data) # 교차검증시 scaler.fit(X_train) X_train = scaler.transform(X_train) X_test = scaler.transform(X_test) 2022. 5. 5. XGBoost XGBoost Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리 Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있게 사용되는 알고리즘 CART(Classification And Regression Tree) 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 early stopping 제공 GBM 기반이지만, GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제가 해결됨 병렬 CPU 환경에서 병렬학습이 가능하여 기존 GBM보다 빠르게 학습 완료할 수 있음 Ensemble Ensemble은 방식에 따라서 Bagging과 Boosting 으로 분류 Ensemble은 여러개의 모델을 조합해서 그.. 2022. 5. 5. 데이터 분석 데이터 분석 문제 정의 > 데이터 수집 > 데이터 전처리 > 데이터 분석(모델링) -> 리포팅/피드백 데이터 전처리(Data Processing) 특정 분석에 적합하게 데이터를 가공하는 작업 문제를 해결하는데 있어서 기반이 되는 데이터 값 중 필요없는 값이 포함되어 있거나, NA 값이 존재하는 등 수많은 요인들을 방지하기 위한 작업을 하는 과정을 Data Processing 이라고 함 EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 데이터 특성을 파악하고, 여러 관계를 찾기 위해 데이터를 탐색한 뒤에 데이터 전처리를 진행함 데이터 탐색 과저에서는 데이터들의 여러 관계를 찾아야 하며, 그 중 EDA를 하거나 상관관계, 분포확인, 인과관계 등을 직접 확인하는 방식으로 해당 데이터.. 2022. 5. 2. Kaggle API 캐글(Kaggle) 사이트로 이동하여 가입을 하고, API 토큰 발급을 받아야 함 가입은 구글 아이디로 연동하면 쉽게 되며, 로그인을 하면 우측 상단의 이미지를 클릭하면 Your Profile 에 들어갈 수 있는데, Account를 누르고 스크롤 다운하면 API 섹션이 보이고, Create New API Token을 클릭하면 kaggle.json 파일이 다운로드 됨 kaggle.json파일은 메모장으로 열어보면 username과 key값이 있고, user name은 말그대로 내 캐글의 이름이고, key값은 비밀번호이니 다른 곳에 공개해서는 안됨 (만약 유출되었거나 다른 이유로 key값을 바꾸고 싶다면, 아까 Create New API Token 버튼 옆에 있는 Expire API Token을 클릭하고 재.. 2022. 4. 27. Kaggle Kaggle - A platform for predictive modeling competitions 전 세계 데이터 사이언티스트들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼 데이터 분석을 할 때 분석할 데이터 셋을 구하고 문제를 정의하는 것 부터 쉽지 않기 때문에, Kaggle은 이런 번거로운 작업들을 미리 다 해두어서 데이터 전처리와 분석에만 집중 할 수 있는 환경을 제공함 Kaggle의 Data 메뉴(https://www.kaggle.com/datasets)에서는 무료로 오픈 데이터 셋을 다운로드 받을 수 있음 대회를 참여하지 않아도 데이터 분석이 가능한 대용량 데이터 파일을 사용할 수 있음 Kaggle의 Courses 메뉴(https://.. 2022. 4. 27. 19. 네이버 영화 리뷰 데이터 분석 2. 데이터 시각화 # 리뷰 정보 클래스 작성하기 import urllib.request from bs4 import BeautifulSoup class Review: def __init__(self, comment, date, star, good, bad): self.comment = comment self.date = date self.star = star self.good = good self.bad = bad def show(self): print("내용: " + self.comment + "\n날짜: " + self.date + "\n별점: " + self.star + "\n좋아요: " + self.good + "\n싫어요: " + self.bad) # 리뷰 정보 크롤링 함수 def crawl(url): soup .. 2022. 4. 16. 이전 1 2 3 4 다음 728x90 반응형