본문 바로가기
BigData

[Hadoop] HDFS에 데이터 저장하기(뉴욕택시 데이터,green taxi data)

by 스파이디웹 2021. 7. 4.
728x90

이번 포스트에는 설치한 하둡에 뉴욕택시 데이터를 저장 해보겠습니다.

 

혹시 하둡을 설치하지 않으신 분은 아래의 포스트를 참고해주세요~

https://spidyweb.tistory.com/214?category=842040 

 

[Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치

이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyw

spidyweb.tistory.com

 

1. local로 wget이용하여 데이터 저장하기

https://data.cityofnewyork.us/Transportation/2020-Green-Taxi-Trip-Data/pkmi-4kfn

 

2020 Green Taxi Trip Data | NYC Open Data

 

data.cityofnewyork.us

1) 위의 링크 사이트에서 export -> csv우클릭 -> 링크 주소복사

https://data.cityofnewyork.us/api/views/pkmi-4kfn/rows.csv?accessType=DOWNLOAD 

(링크주소를 복사하면 위와 같은 주소가 나오게됩니다.)

2) wget 링크주소

cd Documents를 하여 Documents에 저장하겠습니다.

wget https://data.cityofnewyork.us/api/views/pkmi-4kfn/rows.csv?accessType=DOWNLOAD

3) 해당 파일 이름을 greentaxi.csv로 변경

mv rows.csv?accessType=DOWNLOAD greentaxi.csv

2. hadoop 시작시키기

start-all.sh 로 하둡을 시작시킵니다.

3. hdfs GreenTaxi 디렉토리 만들기

1)hdfs dfs -ls /user/hive/warehouse로 디렉토리 확인(hive가 hadoop에 설치되었다고 가정)

2)hdfs dfs -mkdir /user/hive/warehouse/GreenTaxi

4. local greentaxi csv파일 hdfs로 이동하기

1) hdfs dfs -put localsource destination

hdfs dfs -put greentaxi.csv /user/hive/warehouse/GreenTaxi

 

이것으로 hdfs에 greentaxi 파일을 저장해 보았습니다.

728x90

댓글