728x90
데이터 레이크란?
- 데이터를 있는 그대로 축적해서 모아두는 곳
- 데이터를 원래의 형태(미가공의 원시데이터)로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조
- 데이터를 축적하는 호수에 비유
- CSV나 JSON 등의 범용적인 반구조화 텍스트형식이 대부분 사용된다.
- 구조화된 데이터, 반구조화 된 데이터, 비구조화 데이터가 적재된다.
- 데이터 웨어하우스를 대체하는 개념
- 하둡의 HDFS, AWS S3처럼 객체 저장소가 데이터 레이크의 역할을 수행 할 수 있다.
*구조화 데이터: 스키마가 명확하게 정의된 데이터 ex) 테이블,csv(반구조화가 될수도 있음),스프레드시트(반구조화가 될수도 있음)
*반구조화 데이터: 스키마리스 데이터 라고도 불리며, 데이터 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터 ex) JSON, XML, HTML, LOG
*비구조화 데이터: 자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터
(아래의 사진에 csv가 반구조화(반정형)으로 구분될 수도 있고, 경우에 따라 구조화데이터로 구분 될 수 있습니다.)
(데이터 레이크를 중심으로 하는 데이터 파이프라인)
데이터 레이크와 데이터 마트의 관계성
- 데이터 레이크는 단순 스토리지이며, 그것만으로는 데이터를 가공 할 수 없다.
- 이 스토리지에 MapReduce 등의 분산 데이터 처리 기술을 통해 데이터 분석에 필요한 데이터를 가공, 집계, 추출하여 데이터 마트로 추출하는 과정을 거친다.
- 이후 데이터 마트를 통해 데이터 분석을 진행 할 수 있다.
*2021-12-14 csv, 스프레드시트의 데이터구분 수정
728x90
'DataBase > Data & SQL' 카테고리의 다른 글
[Data] 데이터 마트의 구축(치환, 추가, 스냅샷 테이블, 이력테이블) (0) | 2021.08.08 |
---|---|
[Data] 마스터 데이터 vs 트랜잭션 데이터, fact테이블 vs dimension 테이블, 시계열 데이터란? (0) | 2021.08.06 |
[SQL] NULL 과 NULL처리 함수,연산자 (2) | 2021.03.04 |
[Data&SQL] Ad-Hoc , Ad-Hoc 쿼리란? (0) | 2021.01.19 |
[Data]로그 데이터 수집 (0) | 2021.01.07 |
댓글