본문 바로가기
DataBase/Data & SQL

[Data] 데이터 레이크(data lake)란?

by 스파이디웹 2021. 8. 6.
728x90

데이터 레이크란?

  • 데이터를 있는 그대로 축적해서 모아두는 곳
  • 데이터를 원래의 형태(미가공의 원시데이터)로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조
  • 데이터를 축적하는 호수에 비유
  • CSV나 JSON 등의 범용적인 반구조화 텍스트형식이 대부분 사용된다.
  • 구조화된 데이터, 반구조화 된 데이터, 비구조화 데이터가 적재된다.
  • 데이터 웨어하우스를 대체하는 개념
  • 하둡의 HDFS, AWS S3처럼 객체 저장소가 데이터 레이크의 역할을 수행 할 수 있다.

 

*구조화 데이터: 스키마가 명확하게 정의된 데이터 ex) 테이블,csv(반구조화가 될수도 있음),스프레드시트(반구조화가 될수도 있음)

*반구조화 데이터: 스키마리스 데이터 라고도 불리며, 데이터 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터 ex) JSON, XML, HTML, LOG

*비구조화 데이터: 자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터

 

(아래의 사진에 csv가 반구조화(반정형)으로 구분될 수도 있고, 경우에 따라 구조화데이터로 구분 될 수 있습니다.)

 

(데이터 레이크를 중심으로 하는 데이터 파이프라인)


데이터 레이크와 데이터 마트의 관계성

  • 데이터 레이크는 단순 스토리지이며, 그것만으로는 데이터를 가공 할 수 없다.
  • 이 스토리지에 MapReduce 등의 분산 데이터 처리 기술을 통해 데이터 분석에 필요한 데이터를 가공, 집계, 추출하여 데이터 마트로 추출하는 과정을 거친다.
  • 이후 데이터 마트를 통해 데이터 분석을 진행 할 수 있다.

 

*2021-12-14 csv, 스프레드시트의 데이터구분 수정

728x90

댓글