이번 포스트에는 설치한 하둡에 뉴욕택시 데이터를 저장 해보겠습니다.
혹시 하둡을 설치하지 않으신 분은 아래의 포스트를 참고해주세요~
https://spidyweb.tistory.com/214?category=842040
1. local로 wget이용하여 데이터 저장하기
https://data.cityofnewyork.us/Transportation/2020-Green-Taxi-Trip-Data/pkmi-4kfn
1) 위의 링크 사이트에서 export -> csv우클릭 -> 링크 주소복사
https://data.cityofnewyork.us/api/views/pkmi-4kfn/rows.csv?accessType=DOWNLOAD
(링크주소를 복사하면 위와 같은 주소가 나오게됩니다.)
2) wget 링크주소
cd Documents를 하여 Documents에 저장하겠습니다.
wget https://data.cityofnewyork.us/api/views/pkmi-4kfn/rows.csv?accessType=DOWNLOAD
3) 해당 파일 이름을 greentaxi.csv로 변경
mv rows.csv?accessType=DOWNLOAD greentaxi.csv
2. hadoop 시작시키기
start-all.sh 로 하둡을 시작시킵니다.
3. hdfs GreenTaxi 디렉토리 만들기
1)hdfs dfs -ls /user/hive/warehouse로 디렉토리 확인(hive가 hadoop에 설치되었다고 가정)
2)hdfs dfs -mkdir /user/hive/warehouse/GreenTaxi
4. local greentaxi csv파일 hdfs로 이동하기
1) hdfs dfs -put localsource destination
hdfs dfs -put greentaxi.csv /user/hive/warehouse/GreenTaxi
이것으로 hdfs에 greentaxi 파일을 저장해 보았습니다.
'BigData' 카테고리의 다른 글
[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리 (0) | 2025.01.08 |
---|---|
[BigData] 헷갈릴 만한 용어 정리 HDFS 노드, EMR cluster 노드, Spark Application (process) 정리 (0) | 2021.08.19 |
댓글