Cloud/AWS Cloud Computing

[AWS] s3 vs s3a vs s3n 차이 정리

스파이디웹 2023. 2. 23. 16:26
728x90

s3 vs s3a vs s3n

  s3 s3a s3n
공통점 ○ 하둡의 저장소가 hdfs가 아닌, AWS s3일 때 클라이언트를 제공하는 파일시스템 종류(s3에 읽기,쓰기를 가능하게 해주는 어댑터)
○ AWS s3에 저장하게 해주는 하둡의 각각 다른 파일시스템
URI s3:// s3a:// s3n://
파일 크기 제한 5GB보다 클 수 있지만 다른 S3 도구와 상호 운용할 수 없음 큰 파일(5GB 제한 없음), 고성능 작업 등을 지원 가능 단일 파일 크기에 대한 5GB 제한있음
특징 ○ S3가 지원하는 하둡 호환 블록 기반 파일 시스템

 파일이 포함된 기존 버킷을 사용하거나 다른 파일을 동일한 버킷에 쓰지 않아야 함

HDFS에 있는 것처럼 블록으로 저장

 파일 시스템 전용 버킷이 필요

읽기 성능은 좋지만, 쓰기 성능이 나쁨

 업데이트 중단됨(deprecated)
○ S3 Native인 s3n fs의 후속 (객체 저장소)

○ Amazon의 라이브러리를 사용하여 S3와 상호 작용

 s3n://URL에서 액세스할 수 있는 모든 객체는         URL 스키마를 교체하는 것만으로 s3a에서도 액세스 가능

○ 읽기, 쓰기 성능 모두 s3 보다 좋음

○ hadoop과 s3를 사용할 때 추천되는 파일 시스템
○ S3에서 일반 파일을 읽고 쓰기 위한 기본 파일 시스템(객체 저장소)

○ 다른 도구로 작성된 S3 파일에 액세스가능. 반대로 다른 도구는 Hadoop 사용하여 작성된 파일에 액세스 가능

쓰기성능은 s3보다 좋지만, 읽기 성능은 s3a보다 안좋음

업데이트 중단됨(deprecated)
Hadoop 2.7 or later, use s3a
Hadoop 2.5 or earlier use s3n

EMR에서의 파일시스템

  • AWS EMR의 경우에는 별도로 EMRFS라는 파일 시스템이 존재
  • EMR의 S3 파일 시스템과 Hadoop에서의 S3 파일 시스템은 서로 다름
  • EMR 또한 S3로 사용하는 것을 권장
  • s3a의 경우 EMRFS와 호환되지 않기 때문에 오류가 발생할 수 있음
728x90