본문 바로가기
728x90

분류 전체보기336

[Storage] File storage vs Block storage vs Object storage 파일 스토리지(File storage) 데이터를 폴더의 파일 계층 구조로 구성하고 표현 파일 스토리지는 파일 수준 또는 파일 기반 스토리지라고도 하며, 일반적으로 흔히 알고 있는 스토리지 서류철에 서류를 정리하듯, 데이터가 폴더 안에 단일 정보로 저장 해당 데이터에 액세스해야 하는 경우, 컴퓨터는 그 데이터를 찾기 위해 경로를 알아야함 파일에 저장된 데이터는 제한된 양의 메타데이터(해당 파일 자체가 보관된 정확한 위치를 알려주는 데이터)를 사용해 구성 및 검색 모든 문서가 논리적 계층 구조로 정리, 계층 구조 스토리지 이는 직접 연결 및 네트워크 연결 스토리지 시스템에 대해 가장 오래되고 널리 사용되는 데이터 스토리지 시스템 PC로 파일에 저장된 문서에 액세스 할 때마다 파일 스토리지를 사용 파일 스토리.. 2021. 12. 14.
[AWS] EC2 의 vCPU, vCore, core당 스레드(논리 프로세서), yarn에서 vcore할당 비교 AWS EMR을 구성하는 EC2 한개의 스펙 vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있는 코어 개수 코어당 스레드: 1 or 2, 하이퍼 스레딩을 지원하는지 안하는지 차이에 따라 지원하면 2 YARN의 vCores 및 Memory master를 제외한 core노드, task노드의 코어수, 메모리 노드 수 코어 메모리 core 노드 1 8 vCore 32 GIB task 노드 6 64 vCore 256 GIB 노드 수 코어 메모리 yarn node 7 392(8+64x6) 1.48TB(32+256x6 - 시스템 메모리) 결론: EC2인스턴스에 설정된 vCore 수 합산,메모리 용량 합산이 yarn의 vCore, memory 용량을 결정하게.. 2021. 12. 10.
[LINUX] linux CPU, Core수, vCore 확인방법 1.개요 CPU core 수를 셀 수 있다. 일반적인 경우, 하이퍼스레딩에 의해 OS(윈도우, 리눅스 등)에서 코어 수가 실제 코어 수의 2배로 인식된다. 예를 들어 싱글코어는 코어 2개로, 듀얼코어는 4개로 인식된다. 2.CPU 코어 전체 개수 grep -c processor /proc/cpuinfo → 가상 CPU 코어 수는 1 따라서 물리적으로는 1 코어. 3.CPU당 물리 코어 수 grep 'cpu cores' /proc/cpuinfo | tail -1 cpu cores : 1 → CPU당 물리 코어수가 1. 2021. 12. 8.
[Hive,Spark] Hive와 SparkSQL의 호환성 Hive와의 호환성 spark SQL은 Hive Metastore, SerDes(Serialization Deserialization), UDFs(UserDefineFunctions)와 호환성을 염두하여 디자인 됨 1-1. 지원되는 하이브 특징 Hive 쿼리문 SELECT GROUP BY ORDER BY DISTRIBUTE BY CLUSTER BY SORT BY Hive 연산자 관계 연산자(=, , ==, , , >=, 1, Hive 는 null, Spark SQL NaN return ASIN(n) n 1, Hive 는 null, Spark SQL NaN return CAST(n AS TIMESTAMP) n이 정수면 Hive는 n 을 밀리초로 취급, Spark SQL 은 n 을 초로.. 2021. 11. 30.
[python] 클래스(class), 객체(object), 인스턴스(instance), 매개변수 self, 생성자(constructor), 상속(inheritance), 오버라이딩(overriding) 1. 클래스란(class)? python은 객체지향을 지원하고, 함수형 프로그래밍도 가능한 언어 class는 객체 지향 프로그래밍에서 특정 객체를 생성하기 위해 변수와 메소드를 정의하는 일종의 틀 *객체를 정의하기 위한 상태(*멤버 변수)와 *메서드(함수)로 구성 함수와 비교했을 때, 클래스 사용의 장점 함수가 점차적으로 늘어 나게 된다면 무슨 역할을 하는지 의미를 파악하기 어려워지므로, 클래스를 통해 메소드를 구현하게 되면, 비슷한 역할을 하는 것을 한 곳에 모을 수 있게됨 재사용이 가능하다는 것이 가장 큰 장점 *객체 vs 인스턴스 객체란 클래스로 규정된 인스턴스, 변수 대신 실제값을 가짐 인스턴스란 클래스로 만든 객체 인스턴스는 특정 객체가 어떤 클래스의 객체인지를 관계 위주로 설명할 때 사용 a .. 2021. 11. 29.
[git] fatal: Not a valid object name: 'master'. 오류 해결 git init 이후에 git branch를 생성하려고 하면 위와 같은 오류가 나옵니다. 원인 repository가 아직 한번도 commit되지 않은 상태여서 발생 해결방법 commit을 한번 해주면됩니다. 2021. 11. 26.
[git 오류 해결] ! [rejected] main -> main (non-fast-forward)오류 해결 원인 .gitignore파일 또는 README.md파일로 처음 생성할 때 main branch로 잡히면서 생기는 오류 해결방법 해결 방법은 push하려고하는 브랜치 이름 앞에 +를 붙여 push를 하면된다.(이것은 강제로 push하는 명령어입니다.) git push origin +main 2021. 11. 26.
[Hive] Hive on Hadoop cluster 실습 + yarn ui 확인하기 이번 포스트에는 fully distributed hadoop cluster에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeep.. 2021. 11. 23.
[AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookeeper, livy,Spark JupyterHub와 JupyterEnterpirseGateway를 포함하여 띄우겠습니다. 1. Software Configuration HA 구성을 하시려면 use multiple mastger nodes 란에 check합니다(이번 포스트에는 HA구성 없음) AWS Glue Data Catalog Setting에는 Hive table과 Spark table의 metadata를 Glue로 대신하여서 연동할 것인지에 대해 물어보는 옵션인데, Glue에 작업해 둔 것이 있어서 체크.(없으신 분들은 체크 해제) JupyterEnterpriseGateway는 EMR과 연동할 Notebook에 필요 edit .. 2021. 11. 23.
728x90