본문 바로가기
728x90
반응형

분류 전체보기336

빅데이터 탐색_2과목_데이터 전처리 소개, 결측치, 이상값 2022. 5. 3.
빅데이터 분석 기획_1과목_개인정보보호법/제도(2) 개인정보 비식별화 기술 식별자 : 개인을 식별할 수 있는 속성(1:1 대응 가능한 모든 정보), 주민번호, 전화번호, 이메일 준식별자 : 다른 데이터와 결합을 통해 특정 개인을 간접적으로 추론하는데 사용될 수 있는 속성 민감정보 : 개인의 사생활을 노출할 수 있는 속성 비식별화 개인 정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별할 수 없도록 하는 조치 빅데이터 비식별화 기본 원칙 : 식별 방지 + 추론 방지 식별자 제거를 통한 개인정보 비식별화 기술(가명처리, 총계처리, 데이터 값 삭제, 데이터 범주화, 데이터 마스킹, 섭동) + 프라이버시 모델 기반 추론방지에 따른 개인정보 비식별화 조치(k 익명성, l 익명성, t 근접성, m 유일성) 식별자 제거를 통한 개.. 2022. 5. 3.
빅데이터 분석 기획_1과목_개인정보보호법/제도(1) 데이터 3법 - 개인정보 보호법, 정보통신망법, 신용정보법 GDPR - General Data Protection Regulation, 2018년 5월 EU에서 시행된 법령, 정보 주체의 권리와 기업의 책임성 강화 등을 주요 내용으로 하고 있는 개인정보보호법 개인식별정보(PII, Personal Identifiable Information) 자연인을 식별하는데 사용되는 가능한 모든 정보 주민등록번호, 주소, 이메일, 전화번호 및 IP 주소, 로그인 정보, 소셜 미디어 글, 디지털 이미지, 위치정보, 유전정보 등 개인정보(개인정보 보호법 정의) 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보 (개인식별정보) 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 .. 2022. 5. 3.
데이터 분석 데이터 분석 문제 정의 > 데이터 수집 > 데이터 전처리 > 데이터 분석(모델링) -> 리포팅/피드백 데이터 전처리(Data Processing) 특정 분석에 적합하게 데이터를 가공하는 작업 문제를 해결하는데 있어서 기반이 되는 데이터 값 중 필요없는 값이 포함되어 있거나, NA 값이 존재하는 등 수많은 요인들을 방지하기 위한 작업을 하는 과정을 Data Processing 이라고 함 EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 데이터 특성을 파악하고, 여러 관계를 찾기 위해 데이터를 탐색한 뒤에 데이터 전처리를 진행함 데이터 탐색 과저에서는 데이터들의 여러 관계를 찾아야 하며, 그 중 EDA를 하거나 상관관계, 분포확인, 인과관계 등을 직접 확인하는 방식으로 해당 데이터.. 2022. 5. 2.
Kaggle API 캐글(Kaggle) 사이트로 이동하여 가입을 하고, API 토큰 발급을 받아야 함 가입은 구글 아이디로 연동하면 쉽게 되며, 로그인을 하면 우측 상단의 이미지를 클릭하면 Your Profile 에 들어갈 수 있는데, Account를 누르고 스크롤 다운하면 API 섹션이 보이고, Create New API Token을 클릭하면 kaggle.json 파일이 다운로드 됨 kaggle.json파일은 메모장으로 열어보면 username과 key값이 있고, user name은 말그대로 내 캐글의 이름이고, key값은 비밀번호이니 다른 곳에 공개해서는 안됨 (만약 유출되었거나 다른 이유로 key값을 바꾸고 싶다면, 아까 Create New API Token 버튼 옆에 있는 Expire API Token을 클릭하고 재.. 2022. 4. 27.
Kaggle Kaggle - A platform for predictive modeling competitions 전 세계 데이터 사이언티스트들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼 데이터 분석을 할 때 분석할 데이터 셋을 구하고 문제를 정의하는 것 부터 쉽지 않기 때문에, Kaggle은 이런 번거로운 작업들을 미리 다 해두어서 데이터 전처리와 분석에만 집중 할 수 있는 환경을 제공함 Kaggle의 Data 메뉴(https://www.kaggle.com/datasets)에서는 무료로 오픈 데이터 셋을 다운로드 받을 수 있음 대회를 참여하지 않아도 데이터 분석이 가능한 대용량 데이터 파일을 사용할 수 있음 Kaggle의 Courses 메뉴(https://.. 2022. 4. 27.
19. 네이버 영화 리뷰 데이터 분석 2. 데이터 시각화 # 리뷰 정보 클래스 작성하기 import urllib.request from bs4 import BeautifulSoup class Review: def __init__(self, comment, date, star, good, bad): self.comment = comment self.date = date self.star = star self.good = good self.bad = bad def show(self): print("내용: " + self.comment + "\n날짜: " + self.date + "\n별점: " + self.star + "\n좋아요: " + self.good + "\n싫어요: " + self.bad) # 리뷰 정보 크롤링 함수 def crawl(url): soup .. 2022. 4. 16.
18. 네이버 영화 리뷰 데이터 분석 1. 영화 정보 크롤링 # 리뷰 정보 클래스 작성하기 import urllib.request from bs4 import BeautifulSoup class Review: def __init__(self, comment, date, star, good, bad): self.comment = comment self.date = date self.star = star self.good = good self.bad = bad def show(self): print("내용: " + self.comment + "\n날짜: " + self.date + "\n별점: " + self.star + "\n좋아요: " + self.good + "\n싫어요: " + self.bad) # 리뷰 정보 크롤링 함수 def crawl(url): # url.. 2022. 4. 16.
17. 웹 크롤링 #Web Crawler #웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어입니다. #원하는 서비스에서 원하는 정보를 편하게 얻어올 수 있습니다. #언어를 막론하고 구현할 수 있지만, 주로 Python을 이용합니다. #특정 웹 사이트 HTML 코드 추출 ① import requests # 특정 URL에 접속하는 요청(Request) 객체를 생성합니다. request = requests.get('http://www.dowellcomputer.com/main.jsp') # 접속한 이후의 웹 사이트 소스코드를 추출합니다 html = request.text.strip() print(html) 컴잘알 로그인 회원가입 공부방 대화방 공지사항 ❮ ❯ 최근 공지사항 아이디 제목 게시글 등록.. 2022. 4. 16.
16. Matplotlib # Matplotlib 라이브러리의 기초 # 다양한 데이터를 시각화할 수 있도록 도와주는 라이브러리입니다. # 간단한 데이터 분석에서부터 인공지능 모델의 시각화까지 활용도가 매우 높습니다. # 간단한 직선 그래프 그리기 import matplotlib.pyplot as plt x = [1, 2, 3] y = [1, 2, 3] plt.plot(x, y) plt.title("My Plot") plt.xlabel("X") plt.ylabel("Y") plt.show() # 그래프 저장하기 import matplotlib.pyplot as plt x = [1, 2, 3] y = [1, 2, 3] plt.plot(x, y) plt.title("My Plot") plt.xlabel("X") plt.ylabel("Y.. 2022. 4. 16.
728x90
반응형