728x90 데이터 레이크1 [Data] 데이터 레이크(data lake)란? 데이터 레이크란? 데이터를 있는 그대로 축적해서 모아두는 곳 데이터를 원래의 형태(미가공의 원시데이터)로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조 데이터를 축적하는 호수에 비유 CSV나 JSON 등의 범용적인 반구조화 텍스트형식이 대부분 사용된다. 구조화된 데이터, 반구조화 된 데이터, 비구조화 데이터가 적재된다. 데이터 웨어하우스를 대체하는 개념 하둡의 HDFS, AWS S3처럼 객체 저장소가 데이터 레이크의 역할을 수행 할 수 있다. *구조화 데이터: 스키마가 명확하게 정의된 데이터 ex) 테이블,csv(반구조화가 될수도 있음),스프레드시트(반구조화가 될수도 있음) *반구조화 데이터: 스키마리스 데이터 라고도 불리며, 데이터 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터.. 2021. 8. 6. 이전 1 다음 728x90