728x90
반응형
- 데이터 분석
- 문제 정의 > 데이터 수집 > 데이터 전처리 > 데이터 분석(모델링) -> 리포팅/피드백
- 데이터 전처리(Data Processing)
- 특정 분석에 적합하게 데이터를 가공하는 작업
- 문제를 해결하는데 있어서 기반이 되는 데이터 값 중 필요없는 값이 포함되어 있거나, NA 값이 존재하는 등 수많은 요인들을 방지하기 위한 작업을 하는 과정을 Data Processing 이라고 함
- EDA(Exploratory Data Analysis, 탐색적 데이터 분석)
- 데이터 특성을 파악하고, 여러 관계를 찾기 위해 데이터를 탐색한 뒤에 데이터 전처리를 진행함
- 데이터 탐색 과저에서는 데이터들의 여러 관계를 찾아야 하며, 그 중 EDA를 하거나 상관관계, 분포확인, 인과관계 등을 직접 확인하는 방식으로 해당 데이터를 탐색할 수 있음
- 데이터 전처리에서 사용하는 것
- 데이터 벡터화, outlier detection, Feature Engineering 등이 있음
- 데이터 전처리의 과정
- cleansing
- Missing Value(결측치)
- Ignore the tuple(결측치가 있는 데이터 삭제)
- Manual Fill(수동으로 입력)
- Global Constant
- Imputation
- Noisy data
- 큰 방향성에서 벗어난 random error 혹은 variance를 포함하는 데이터
- 대부분 descriptive statistics 혹은 visualization 등 EDA를 통해 Noisy data를 처리할 수 있으며, 혹은 binning, regression, outlier analysis를 통해 처리할 수 있음
- Missing Value(결측치)
- Integration
- 여러 개로 나누어져 있는 데이터를 분석하기 편하게 하나로 합치는 과정 ex) merge
- Transformation
- 데이터의 형태를 변환하는 작업으로, scaling이라 부름 ex) normalize
- Reduction
- 데이터를 의미있게 줄이는 것을 의미하며, dimesion reduction과 유사한 목적을 갖음 ex) pca
- cleansing
- 모델링
- 원하는 결과를 도출하기 위해 예측이나 분류, 회귀를 통해 작업을 진행하는 단계
- 전처리된 데이터를 관점별로 나누고 쪼개어서 분석하는 과정
- 성능을 높이기 위해 parameter 튜닝 작업을 진행할 수 있음
- 이 과정에서 많은 비용이 발생할 수 있으며, 다양한 머신러닝 기법들을 사용할 수 있음
- 머신러닝과 그 구성요소인 딥러닝, 신경망은 모두 AI의 세부 하위집합임
- AI는 의사결정과 예측을 수행하기 위해 데이터를 처리함
- AI는 머신러닝 알고리즘으로 데이터를 처리할 뿐 아니라 추가 프로그래밍 없이도 데이터를 학습하면서 지능화함
- 인공지능은 모든 머신러닝 관련 하위집합을 포괄하는 상위집합임
- 첫 번째 하위집합은 머신러닝이며, 그 안에 딥러닝이 있고 딥러닝 안에는 신경망이 있음
- 머신러닝
- 다양한 알고리즘 기법을 적용하는 여러 유형의 머신러닝 모델로 구성되며, 데이터의 특성과 원하는 결과에 따라 지도, 비지도, 준지도, 강화 등 네 가지 학습모델 중 하나를 적용할 수 있음
- 머신러닝 알고리즘은 기본적으로 사물 분류, 패턴 발견, 결과 예측, 정보 기반 의사결정 등을 수행하도록 설계되며, 알고리즘은 하나씩 사용할 수도 있고 복잡하고 보다 예측 불가능한 데이터가 포함된 경우에는 정확도를 극대화하기 위해 여러 알고리즘을 결합할 수도 있음
- 지도형 학습
- 지도형 학습 알고리즘에서는 예시를 통해 머신을 훈련함
- 지도형 학습 모델은 '입력'과 '출력' 데이터 쌍으로 구성되며, 원하는 값으로 출력 레이블을 지정할 수 있음
- 지도형 학습에서는 머신에 정답 키를 제공해 모든 올바른 결과 중에서 상관관계를 찾아 학습하도록 함
- 비지도 학습
- 머신이 입력 데이터(대부분 레이블이 없는 비정형 데이터)를 학습한 다음 관련성이 있고 액세스 가능한 데이터를 모두 사용해 패턴과 상관관계를 인식하기 시작함
- 비지도 학습은 사람이 세상을 관찰하는 방식을 기반으로 다양하게 모델링되며, 사람은 직관과 경험에 의존해 사물을 그룹화함
- 비지도 학습 모델이 사용되는 대표적인 예는 안면 인식, 유전자 서열 분석, 시장 조사, 사이버 보안 등
- 준지도 학습
- 준지도 학습은 대량의 원시 비정형 데이터를 처리해야 하는 경우에 사용됨
- 소량의 레이블이 지정된 데이터를 입력해 레이블이 없는 데이터 세트를 증강함
- 이 모델의 핵심은 레이블이 지정된 데이터를 통해 시스템이 학습을 시작하게 하며, 학습 속도와 정확성을 상당한 수준으로 개선하도록 하는 것임
- 준지도 학습 알고리즘은 레이블이 지정된 데이터를 분석해 레이블이 없는 데이터에 적용 가능한 상관관계가 있는 속성을 찾도록 머신을 훈련함
- 강화학습
- 강화학습 모델에서는 정답 키는 제공되지 않지만 일련의 허용 가능한 행동, 규칙, 잠재적 최종 상태가 입력됨
- 알고리즘의 원하는 목표가 고정되어 있거나 양자택일인 경우 머신은 예시를 통해 학습할 수 있지만, 원하는 목표가 변동 가능한 경우에는 경험과 보상을 통해 학습해야 함
- 강화학습 모델에서 '보상'은 숫자이며, 시스템에서 수집하려는 항목으로 알고리즘에 프로그래밍됨
- 데이터
- 정형 데이터
- 데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터
- 정형 데이터는 그 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우 정형 데이터
- 비정형 데이터
- 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우를 말하며, 텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 범위
- 반정형 데이터
- 완전한 정형이 아니라 약한 정형 데이터
- HTML이나 XML과 같은 포맷을 반정형 데이터의 범위에 넣을 수 있음
- 일반적인 데이터 베이스는 아니지만 스키마를 가지고 있는 형태
- 반정형 데이터는 정형 데이터와 비정형 데이터와 완벽히 MECE(완벽 분리)로 구분이 되지 않음
- 데이터베이스에 있는 데이터의 일부를 Dump로 내려서 JSON구조로 내리는 순간 반정형이 되어 버림
- 정형 데이터
728x90
반응형
'Data Analysis > Data Analysis' 카테고리의 다른 글
Kaggle API (0) | 2022.04.27 |
---|---|
Kaggle (0) | 2022.04.27 |
Python 데이터분석과 이미치 처리 : 다양한 개발 환경 소개 & Numpy 기본 사용법 (0) | 2022.04.03 |
Python 데이터분석과 이미치 처리 : 행렬의 필요성 (0) | 2022.04.03 |
Python 데이터분석과 이미치 처리 : 기본 (0) | 2022.04.03 |
댓글