본문 바로가기
Data Analysis/Data Analysis

Kaggle

by SeleniumBindingProtein 2022. 4. 27.
728x90
반응형

Kaggle - A platform for predictive modeling competitions

  • 전 세계 데이터 사이언티스트들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼
  • 데이터 분석을 할 때 분석할 데이터 셋을 구하고 문제를 정의하는 것 부터 쉽지 않기 때문에, Kaggle은 이런 번거로운 작업들을 미리 다 해두어서 데이터 전처리와 분석에만 집중 할 수 있는 환경을 제공함
  • Kaggle의 Data 메뉴(https://www.kaggle.com/datasets)에서는 무료로 오픈 데이터 셋을 다운로드 받을 수 있음
    • 대회를 참여하지 않아도 데이터 분석이 가능한 대용량 데이터 파일을 사용할 수 있음
  • Kaggle의 Courses 메뉴(https://www.kaggle.com/learn/)에서는 Python, 머신러닝, 데이터 시각화 등 강의를 제공
  • Kaggle 대회 참여
    • Overview: 대회의 설명, 평가방법, 제출 기간, 상금 등 대회에 대한 전반적인 내용을 설명합니다.
    • Data: 본 대회에서 사용하는 데이터 셋을 설명합니다. 보통 데이터는 학습용 데이터, 테스트용 데이터로 나뉘어져 있습니다. 학습용 데이터로 모델을 생성하고 테스트용으로 추론을 진행하여 결과을 도출하여 캐글에 제출합니다.
    • Notebooks: 개발 환경을 제공합니다. Kaggle 웹 사이트에서 Python이나 R을 활용하여 코드를 작성하고 컴파일 할 수 있습니다. 또한 작성한 코드를 공개하여 다른 사람들이 코드 분석한 결과를 볼 수도 있고 토론할 수도 있습니다.
    • Discussion: 대회를 진행하면서 궁금한 사항, 이슈가 될 사항등을 토론하는 공간입니다.
    • Leaderboard: 순위를 확인합니다. 데이터 분석 결과를 제출한 파일을 Overview에서 제시한 평가방법을 기준으로 정확도를 평가하여 순위를 매깁니다.
    • Rules: 대회 진행의 규칙을 설명합니다.
728x90
반응형

댓글