Data Lake 개념정리
Data Lake(데이터 레이크)는 모든 정형, 반 정형, 비정형 및 이진 데이터를 자연 / 네이티브 / 원시 형식으로 저장할 수있는 시스템 또는 중앙 집중식 데이터 저장소 구조화 된 데이터에는 RDBMS의 테이블이 포함될 수 있음 반 구조화 된 데이터에는 CSV 파일, XML 파일, 로그, JSON 등이 포함됨 구조화되지 않은 데이터에는 PDF, 워드 문서, 텍스트 파일, 이메일 등이 포함될 수 있고, 바이너리 데이터에는 오디오, 비디오, 이미지 파일이 포함될 수 있음 데이터 저장을위한 플랫 아키텍처를 따르며 일반적으로 데이터는 개체 Blob 또는 파일의 형태로 저장되고, 데이터 레이크를 사용하면 데이터를 먼저 구조화 할 필요없이 모든 기업을 한 곳에있는 그대로 저장할 수 있음 머신 러닝, 실시간 분석..
2022. 4. 5.
모두의 데이터분석 with 파이썬 : 5. 파이썬 데이터 분석 라이브러리를 활용한 프로젝트
#!/usr/bin/env python # coding: utf-8 #13.숫자 데이터를 쉽게 다루게 돕는 numpy 라이브러리 # In[1]: import matplotlib.pyplot as plt import numpy as np t = np.arange(0.,5.,0.2) plt.plot(t,t,'r--',t,t**2,'bs',t,t**3,'g^') plt.show() # In[2]: import matplotlib.pyplot as plt t=[] p2=[] p3=[] for i in range(0,50,2): t.append(i/10) p2.append((i/10)**2) p3.append((i/10)**3) plt.plot(t,t,'r--',t,p2,'bs',t,p3,'g^') plt.sho..
2022. 4. 3.
모두의 데이터분석 with 파이썬 : 2. 데이터 시각화 기초
#!/usr/bin/env python # coding: utf-8 #기본 그래프 그리기 # In[1]: import matplotlib.pyplot as plt plt.plot([10,20,30,40]) plt.show() # In[2]: import matplotlib.pyplot as plt plt.plot([1,2,3,4], [12,43,25,15]) plt.show() # In[3]: import matplotlib.pyplot as plt plt.title('plotting') plt.plot([10,20,30,40]) plt.show() # In[9]: import matplotlib.pyplot as plt plt.title('legend') plt.plot([10,20,30,40], la..
2022. 4. 3.