본문 바로가기
728x90

BATCH2

[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리 빅데이터에 사용이 많이 되는 파일 형식에 대해서 비교하고 정리해보겠습니다.특징ParquetAvroORC저장 방식컬럼 기반행 기반컬럼 기반압축률높음중간매우 높음주 용도배치, 분석 처리스트리밍, 실시간 처리배치, 데이터 웨어하우스 처리성능읽기 성능 우수(columnar)빠른 쓰기, schema evolution 지원읽기 성능 우수배치 처리적합부적합(행 기반 저장으로 인한 성능 저하)매우 적합스트리밍 처리덜 최적화최적화(schema evolution)덜 최적화사용되는 기술Spark, Hive, Impala, PrestoKafka, Spark, Flink, HadoopHive, Spark, Presto, Impala1. ParquetParquet 구조+----------------------+| Fil.. 2025. 1. 8.
[Linux] Cron, Crontab이란? batch 등록하기 -배치(batch)란: (일괄적으로 처리되는)집단, 즉 일괄적으로 뭔가가 처리되는~ -배치를 등록한다는 것은->여러가지 일을 한꺼번에 처리하기 위해 만든 프로그램 (매일 정해진 시간에 혹은 주기적으로 수많은 양의 작업을 직접 타이핑 하지않고 배치 프로그램을 통해 해결) -이 배치를 실행하는것은 개발자가 아닌 스케쥴러가 실행하게 됨. -스케쥴러란: 일정 주기 혹은 특정 시간에 배치 프로그램을 실행시켜주는 프로그램, 리눅스에는 대표적으로 크론탭(Crontab)이 있습니다. -Cron 이란?: 특정한 시간에 또는 특정 시간 마다 어떤 작업을 자동으로 수행하게 해주고 싶을 때 사용하는 명령어가 cron입니다. cron은 특정한 시간에 특정한 작업을 수행하게 해주는 스케줄링 역할을 합니다. 리눅스에만 있는 개념이.. 2020. 11. 2.
728x90