728x90
반응형
- Data Lake(데이터 레이크)는 모든 정형, 반 정형, 비정형 및 이진 데이터를 자연 / 네이티브 / 원시 형식으로 저장할 수있는 시스템 또는 중앙 집중식 데이터 저장소
- 구조화 된 데이터에는 RDBMS의 테이블이 포함될 수 있음
- 반 구조화 된 데이터에는 CSV 파일, XML 파일, 로그, JSON 등이 포함됨
- 구조화되지 않은 데이터에는 PDF, 워드 문서, 텍스트 파일, 이메일 등이 포함될 수 있고, 바이너리 데이터에는 오디오, 비디오, 이미지 파일이 포함될 수 있음
- 데이터 저장을위한 플랫 아키텍처를 따르며 일반적으로 데이터는 개체 Blob 또는 파일의 형태로 저장되고, 데이터 레이크를 사용하면 데이터를 먼저 구조화 할 필요없이 모든 기업을 한 곳에있는 그대로 저장할 수 있음
- 머신 러닝, 실시간 분석, 온 프레미스 데이터 이동, 실시간 데이터 이동, 대시 보드 및 시각화를 포함하여 다양한 유형의 분석을 직접 실행할 수 있음
- *정형 데이터 : 형태가 있고 연산할 수 있는 데이터. ‘엑셀’ 같은 스프레드시트에 저장되는 형태, 수치, 기호, 도형 등이 그 예
- *반정형 데이터 : 형태는 있지만 연산할 수 없는 데이터. 메일 등 통신 내용 기록 같은 로그 등이 그 예
- *비정형 데이터 : 형태가 없고 연산할 수 없는 데이터. 인터넷 댓글, 영상, 음성 등이 그 예
- *데이터 웨어하우스(data warehouse) : 회사의 각 사업부문에서 수집된 모든 자료 또는 중요한 자료에 관한 중앙창고
- 데이터 레이크 특징은 데이터 웨어하우스와 비교하면 확실히 알 수 있으며,
- 첫째, 데이터 레이크에서는 데이터를 저장하기 전 이를 정제하지 않고, 데이터 웨어하우스에서는 데이터를 정제한 뒤, 이를 저장을 함
- 둘째, 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있고, 데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화됐음
- 셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장하고, 데이터 웨어하우스에 저장하는 데이터는 미리 정의된 목적이 있음
- 넷째, 데이터 레이크에서는 즉시 데이터를 수집할 수 있고, 데이터 웨어하우스에서는 데이터를 정제하는 데 시간이 오래 걸려서 즉시 데이터를 수집할 수 없음
- 다섯째, 데이터 레이크는 데이터 사이언티스트가 주로 이용하며, 데이터 웨어하우스는 비즈니스 애널리스트가 주로 사용함
- 여섯째, 데이터 레이크 환경설정은 유연하지만, 데이터 웨어하우스는 고정됐음
- 데이터 레이크는 온프레미스, 클라우드 환경에서 모두 구축할 수 있음
- 하둡, 관계형 데이터베이스 관리 시스템, 클라우드 기반 저장소를 플랫폼으로 쓸 수 있고, 하둡이 가장 흔함
- 하지만, 트렌드는 클라우드이고, 오라클에 따르면 클라우드는 유연하게 확장할 수 있고, 온프레미스와 비교하면 비용이 덜 듦
- 아드리안 콕크로프트 아마존 지속가능성 아키텍처 부사장은 ‘아마존웹서비스(AWS) 서밋 서울 2019’에서 “클라우드 기반 데이터 레이크가 우리 미래가 될 거”라고 전망했고, 데이터 레이크 솔루션을 제공하는 기업도 다양하며, 테라데이타, 델 EMC, AWS, 마이크로소프트, 구글 등이 그 예임
- 데이터 레이크는 마케팅, 연구개발(R&D), 제조시설 등 여러 분야에서 쓰일 수 있고, AWS에 따르면 데이터 레이크는 고객 관계 관리(CRM) 플랫폼에서 수집한 고객 데이터를 마케팅 플랫폼(구매 이력 포함), 소셜 미디어 분석과 결합할 수 있음
- 이로써 가장 수익성 높은 고객 집단, 고객 이탈 원인, 충성도를 높이는 프로모션이나 보상도 파악할 수 있으며, 아울러 데이터 레이크는 R&D팀이 가설을 테스트하고, 가정을 개선하며, 결과를 평가하는 데 도움됨
- 제조시설 내 사물인터넷(IoT) 기기에서 수집한 데이터도 데이터 레이크에 저장, 분석할 수 있고, 이 과정에서 운영비를 줄이며 품질을 높이는 방법도 찾을 수 있음
- 스키마(schema) : 데이터베이스에서 자료 구조, 자료 표현방법, 자료 간 관계를 형식 언어로 정의한 구조
- 데이터 마트(data mart) : 특정 사용자가 관심 갖는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스이며, 데이터 웨어하우스는 정부 기관 또는 정부 전체의 상세 데이터를 포함하고, 데이터 마트는 전체 데이터 웨어하우스에 있는 일부 데이터를 갖고 특정 사용자를 대상으로 함
- 즉시 데이터 : 기억 장치에서 한 명령어 바로 다음에 나타나는 데이터를 지칭하는 용어
- 하둡 : 오픈 소스 기반 분산 컴퓨팅 플랫폼
- 관계형 데이터베이스 관리 시스템 : 행과 열로 된 2차원이나 3차원 표로 데이터를 표현하는 데이터베이스 관리 시스템
- 데이터 레이크의 한계
- 첫째, 데이터 레이크는 ‘데이터 늪’이 될 위험이 있고, 데이터 늪은 ‘잘못 관리한 데이터 레이크’이며, 많은 데이터 레이크가 데이터 늪으로 전락함
- 데이터 레이크에는 감독이나 거버넌스 없이 어느 데이터든 저장할 수 있고, 가트너에 따르면 서술적 메타데이터*와 이를 관리하는 메커니즘이 없으면 데이터 레이크가 데이터 늪이 됨
- 이에 데이터 늪에 빠진 데이터는 ‘정체를 모르는 수상한 식재료’와 같아서 일부 데이터 출처는 확인할 수 없을 뿐만 아니라, 이런 데이터를 의사결정에 활용하는 건 정체불명 식재료로 요리하는 것과 같은 문제를 야기함
- 둘째, 보안과 액세스 제어 문제도 있음
- 앞서 언급했듯 데이터 레이크에서는 내용을 감독하지 않고 데이터를 저장할 수 있으며, 가트너에 따르면 프라이버시와 규제 요건 상 위험 노출 문제가 제기될 수 있는 데이터가 있음
- 많은 데이터 레이크에서 이런 데이터를 저장할 수 있고, 중앙 데이터 레이크 기술의 보안 기능은 아직 초기 단계에 있음
- 데이터브릭스에서는 데이터를 삭제하고 업데이트하는 기능 등이 부족해서 데이터 레이크는 제대로 보안을 지키고 관리하기가 어렵다고 설명하며, 이 때문에 규제기관 요구사항을 충족하기 힘들다는 문제점이 있음
- 셋째, 데이터 레이크 성능이 저하될 수 있음
- 데이터브릭스에 따르면, 데이터 레이크 안에 저장된 데이터 규모가 커질수록 전통 쿼리 엔진 성능이 저하된다고 함
- 저장소에 있는 데이터에 반복해서 접근해도 쿼리 성능이 크게 저하될 수 있고, 클라우드 저장소를 사용하는 현대 데이터 레이크에서는 삭제된 파일이 최대 한 달 동안 남을 수 있다고 하며, 이 또한 쿼리 성능을 저하할 수 있음
- 데이터 레이크는 수 페타바이트 이상까지 커질 수 있고, 데이터에 대한 데이터인 메타데이터로 인해 병목현상이 생길 수 있음
<참고자료>
https://www.samsungsds.com/kr/insights/big_data_lake.html
https://spidyweb.tistory.com/263
728x90
반응형
'DevOps > Data Lake' 카테고리의 다른 글
nifi-api (2) | 2023.01.16 |
---|---|
Python FastAPI - RestAPI (0) | 2023.01.16 |
Python FastAPI - restAPI를 활용한 mssql 연동 (0) | 2023.01.16 |
Python_FastAPI : MSSQL 연동 (0) | 2023.01.10 |
댓글