본문 바로가기
BigData/Data Engineering

[Data Engineering] CCA Spark and Hadoop Developer Exam(CCA175) 정보와 준비 자료

by 스파이디웹 2023. 3. 7.
728x90

1. 시험 소개

1) 자격증 분류

cloudera 주관 CDH(Cloudera Distribution Including Apache Hadoop) , HDP(Hortonworks Data Platform)

자격증 중, CCA(Cloudera Certified Association)에 해당하는 자격증


2) 자격증 소개

Apache Spark와 Cloudera Enterprise tool을 이용한 데이터 수집, 가공 ,처리를 다루는 자격증

  • 문항 수
    • Cloudera Enterprise cluster에서 수행하는 8 ~ 12개의 수행능력 기반의(hands-on) 과제
  • 시간 제한
    • 120분
  • 합격 점수
    • 70% 이상
  • 문제의 언어형식
    • 영어
  • 시험 비용
    • US$295
  • Spark 코딩 시 사용 가능 프로그래밍 언어
    (결과만 중요시 하고 코드는 상관 없는 듯 하다.)
    • Scala
    • Python
    • Java..?
    • R..?

2-1) 시험 문제 형식

  • 특정 시나리오를 기반으로 문제를 풀 능력을 요구하는 문제
  • 몇몇 경우에 Impala나 Hive가 쓰이고
  • 대부분의 경우에 코딛이 필요 함

2-2) 평가, 점수 안내 그리고 자격

제출과 동시에 즉시 채점이 되며, 시험본 날로 부터 3일 이내로 이메일로 결과가 전송됩니다.

점수는 각 문제별 점수가 표시되고 문제를 틀렸을 경우에, 왜 틀렸는지에 대해 표시해줍니다.
(예를들어, 레코드가 부정확한 데이터를 포함합니다. 파일포맷이 부정확합니다. 등)

(위의 예제 처럼 틀린 문제에 대한 간단한 정보를 주고 왜 틀렸는지에 대해 이보다 더 자세한 내용을 주진 않는다.)

 

시험에 합격한다면, 시험 날짜로부터 일주일 이내에 PDF로 발급되는 디지털 자격증과 자격번호가 메일로 한번 더 전송됩니다.

2-3) 대상 및 전제 조건

자격증을 따는데 어떠한 전제조건 혹은 자격이 필요 없음(그냥 시험 볼 수 있음, 돈만 낸다면..ㅋㅋ)


2. 요구되는 수행 능력

1) Transform, Stage, and Store

HDFS에 저장된 주어진 포맷의 데이터값을 새로운 데이터 값으로 변환하거나 다른 데이터 포맷으로 HDFS에 쓰는 수행 능력

  • HDFS로 부터 Spark applications에 데이터를 불러오기
  • HDFS에 Spark를 이용하여 결과파일을 쓰기
  • 다양한 파일 포맷으로 읽고 쓰기
  • SparkAPI를 이용한 표준 추출, 변환, 적재(ETL) 프로세스를  수행

2) Data Analysis

applications에서 Spark SQL를 사용하여 프로그래밍을 통해 메타스토어와 상호작용하는 작업, 쿼리를 이용하여 불러온 데이터에 대해 보고서를 생성하는 작업에 대한 수행 능력

  • 메타스토어 테이블를 통해 등록된 테이블을 스파크로 원천,타겟 테이블로써 사용
  • Spark에서 데이터집합에 대해 기본적으로 쿼리하는 것에 대한 이해
  • Spark를 이용한 데이터 필터링
  • 집계 통계를 계산하는 쿼리 작성
  • Spark를 사용하여 서로 다른 데이터셋 조인
  • 랭킹이 매겨진 혹은 정렬된 데이터 생성

3) Configuration

실용적인 시험이고 시험대상자는 코딩만 하는 것이 아닌, 모든 방면에서 결과를 내는 수행 능력이 필요

  • 사용가능 메모리를 증가시키는 것(메모리 변경) 과 같이 application 구성을 바꾸기위해 명령어 옵션을 작성

3. 시험 환경 및 클러스터 정보

  • 언제 어디든 시험볼 수 있는 원격-프로토콜의 시험 환경
  • Spark2.4버전이 탑재된 CDH6(현재 기준 6.1.1v) 클러스터
  • 구글 검색, 외부 스파크 패키지 접근, 시험에 도움되는 어떠한 것들도 다 금지 됨

4. 시험 준비 및 자료

구글링만 해봐도 덤프를 파는 각종 사이트가 가장 흔하게 보이고,

유데미에서 시험대비 강좌를 추천하시는 분도 계셨습니다.

https://www.udemy.com/topic/apache-spark/?aff_code=Ewh3Y1xWRnkGRR5zMkBPbG1RGXFfVFh8CF4ac05QRHYBShFxWT5XMRM%3D&locale=ko_KR&p=2&persist_locale=&pmtag=CAREERS24LEARN15&utm_campaign=careers24octlaunch&utm_medium=web&utm_source=careers24 

 

Apache Spark 학습 | Apache Spark 무료 강의

최고 평점의 Udemy 강사로부터 Apache Spark 사용 방법을 배워보세요. Udemy는 Hadoop 및 Apache Hive 같은 도구를 사용하여 빅데이터를 처리하는 데 도움이 되는 다양한 Apache Spark 강좌를 제공합니다.

www.udemy.com

udemy 추천 강좌

  1. CCA 175 — Spark and Hadoop Developer — Python (pyspark) by Durga Viswanatha Raju Gadiraju.
  2. CCA 175 -Spark Developer Exam Preparation + Practice Tests by Navdeep Kaur

 

Edureka’s Big Data Hadoop Certification Training를 통해 학습하셔서 붙으신 외국인 분도 계십니다.

https://www.edureka.co/big-data-and-analytics?gclid=CjwKCAiA3pugBhAwEiwAWFzwdUHIB8fo2TRqz1fKvyiQvZLIXzdPZOigsVyIX3VPWx8RSUq-2WU2iRoCmBYQAvD_BwE 

 

Big Data Analytics Certification Courses | Edureka

These Big Data Analytics Courses help you learn Spark, Hadoop, Splunk, and other Big Data Tools. Enroll Big Data Analytics Certification Training Courses now.

www.edureka.co

 

시험 준비환경

Cloudera Quickstrart VM 이미지가 있는데(하둡 에코시스템 환경)

거기서 연습을 했다는 사람이 있다.

 

문제 예제


Question No : 1


Problem Scenario 30: You have been given three csv files in hdfs as below.
EmployeeName.csv with the field (id, name)
EmployeeManager.csv (id, manager Name)
EmployeeSalary.csv (id, Salary)
Using Spark and its API you have to generate a joined output as below and save as a text tile (Separated by comma) for final distribution and output must be sorted by id.
ld, name, salary, managerName
EmployeeManager.csv
E01, Vishnu
E02, Satyam
E03, Shiv
E04, Sundar
E05, John
E06, Pallavi
E07, Tanvir
E08, Shekhar
E09, Vinod
E10, Jitendra
EmployeeName.csv
E01, Lokesh
E02, Bhupesh
E03, Amit
E04, Ratan
E05, Dinesh
E06, Pavan
E07, Tejas
E08, Sheela
E09, Kumar
E10, Venkat
EmployeeSalary.csv
E01, 50000
E02, 50000
E03, 45000
E04, 45000
E05, 50000
E06, 45000
E07, 50000
E08, 10000
E09, 10000
E10, 10000

Question No : 2

Create a file in local filesystem named file1.txt and put it to hdfs

Question No : 3

Problem Scenario 23: You have been given log generating service as below.
Start_logs (It will generate continuous logs)
Tail_logs (You can check, what logs are being generated)
Stop_logs (It will stop the log service)
Path where logs are generated using above service: /opt/gen_logs/logs/access.log
Now write a flume configuration file named flume3.conf, using that configuration file dumps logs in HDFS file system in a directory called flumeflume3/%Y/%m/%d/%H/%M
Means every minute new directory should be created). Please us the interceptors to provide timestamp information, if message header does not have header info.
And also note that you have to preserve existing timestamp, if message contains it. Flume channel should have following property as well. After every 100 message it should be committed, use non-durable/faster channel and it should be able to hold maximum 1000 events.


후기 & 꿀팁 모음

  1. sqoop 문제가 쉬웠기 때문에 10분안에 푸는 걸 추천
  2. 스파크문제가 뒤로 갈수록 어려움
  3. 가상환경이 느려질 수 있기 때문에, 명령어를 메모장에 적고 copy-paste하는 방식으로 푸는 것이 좋음
  4. 시험친 2~4시간 후에 합/불 여부를 알려줌
  5. 9개의 문제가 나온 시험에서는 2개의 sqoop문제, 1개의 hive문제, 6개의 spark 문제 비율로 나옴

 

참조:

https://www.cloudera.com/about/training/certification/cdhhdp-certification/cca-spark.html

728x90

댓글