본문 바로가기
728x90

분류 전체보기336

[BigData] Spark( RDD vs DataFrame vs Dataset) + SparkSQL 출처 : A comparison between RDD, DataFrame and Dataset in Spark from a developer’s point of viewRDDResilient: 분산되어 있는 데이터에 에러가 생겨도 복구할 수 있는 능력Distributed: 클러스터의 여러 노드에 데이터를 분산해서 저장Dataset: 분산된 데이터의 모음SparkContext를 통해 만들어지며 보통 sc=spark.SparkContext를 통해 객체를 생성한다SparkSession을 import해도 SparkContext가 포함되어 있는 내용이라 SparkSession만 import해도 사용가능하긴 하다.ex)spark = SparkSession.builder.appName("이름").master("loc.. 2021. 2. 15.
[Network] IP와 Port번호 포트번호(PortNumber) -포트번호란 호스트 내에서 실행되고 있는 프로세스를 구분짓기 위한 16비트의 논리적 할당 이다. 0~65536개의 갯수를 가진다. -포트번호는 컴퓨터 안에서 프로그램을 찾을 때 사용되는 번호이다. IP주소(internet protocol address) -ip주소는 컴퓨터를 찾을 때 필요한 주소 IP주소와 포트번호의 역할 예를들어 PC의 IP주소가 192.168.10.20 이라고 하면 컴퓨터에서 FTP로 자료를 받을 때 사용하는 IP주소는 자신의 주소인 192.168.10.20이고 채팅을 할 때의 IP주소도 192.168.10.20이다. FTP서버와 채팅 서버가 각각 패킷을 192.168.10.20 주소로 보내려고 하면 서로 혼동이 생기게 된다. 그 IP주소를 사용하는 프로.. 2021. 2. 15.
[BigData] 데이터 처리, Spark vs Hadoop vs Hive 공통점: 셋 다 bigdata처리를 지원하는 framework,솔루션 이다. 차이점: spark hadoop hive 역할 1.분산형 데이터 컬렉션 상부에서 동작하는 프로세싱 툴(메모리 기반) 1. 분산형 data infrastructure 2. 대량의 데이터 컬렉션을 사용 3.서 버 클러스터 내 복수의 노드들에 분산시키는 역할 4. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다 1.하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. 2.RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 .. 2021. 2. 10.
[AWS] EC2(Elastic Compute cloud)란? EC2만드는 방법 EC2 인스턴스 타입 1.choose AMI(Amazon Machine Image) Amazon linux Ubuntu server suse linux Red Hat Windows 2.choose an Instance type #group t m(같은 가격이라 쳤을 때 memory적으로 우수한 인스턴스) c(같은 가격이라 쳤을 때 cpu적으로 우수한 인스턴스) g(같은 가격이라 쳤을 때 gpu적으로 우수한 인스턴스) #type ex) nano micro small medium large xlarge 2xlarge 4x,8x,9x,12x,16x,18x,24x large metal #vCPUs(인스턴스의 가상 CPU 수) ex) 1,2,4,8,16,36,48,72,96 #메모리(GiB) 기가바이트단위 메모리.. 2021. 2. 7.
[Server] 서버 이중화 HA(High Availability), OPS(Oracle Parallel Server), RAC(Real Application Cluster) 비교 #HA와,OPS,RAC 모두 DB 서버의 구성에 관한 것이고, 고가용성을 위해 만들어진 구성이라는 것 HA(High Availability) -2개의 서버를 이용하여 하나는 Active 상태, 나머지 하나는 Standby 상태로 정해놓는다. -거의 모든 부하는 Active에서 부담하고 Standby 상태의 서버는 Active 서버가 장애가 발생하지 않는 이상, 거의 가동하지 않는다. -실제 서비스를 운영하는 Active 서버가 어떠한 장애로 정상적인 작동이 불가능해진다면, 곧바로 Standby 서버가 Active 되면서 다시 서비스를 정상 작동할 수 있게 하는 구성이다. -이해하기 쉬운만큼 구조도 단순하고 따라서 구축 비용도 저렴하다. 또한, 서버 하나만 가동되면 되므로 유지비 역시 저렴하다는 장점이 있.. 2021. 2. 3.
[NoSQL] MongoDB 집계(Aggregation)1 #집계 프레임워크 -파이프라인의 각 단계에서의 출력이 다음 단계로의 입력으로 제공되는 파이프라인(집계 파이프라인,aggregation pipeline)을 정의한다. $project - 출력 도큐먼트상에 배치할 필드를 지정한다.(projected) $match - 처리될 도큐먼트를 선택하는 것. find()와 비슷한 역할을 수행한다. $limit - 다음 단계에 전달될 도큐먼트의 수를 제한한다. $skip - 지정된 수의 도큐먼트를 건너뛴다. $unwind -배열을 확장하여 각 배열 항목에 대해 하나의 출력 도큐먼트를 생성한다. $group -지정된 키로 도큐먼트를 그룹화한다. $sort -도큐먼트를 정렬한다. $geoNear - 지리 공간위치 근처의 도큐먼트를 선택한다. $out - 파이프라인의 결과(출.. 2021. 1. 21.
[NoSQL] MongoDB 쿼리 언어 총정리2 #자바스크립트 쿼리 연산자 -쿼리에 자바스크립트 표현식을 넘겨주기 위해서는 특수한 $where 연산자를 사용할 수 있다. ex) db.컬렉션이름.find({ '$where': "function() {return this.helpful_votes > 3;}" }) //this는 현재의 도큐먼트를 가리킨다. db.컬렉션이름.find({'$where': "this.helpful_votes > 3"})처럼 표현할 수 있다. -자바스크림트 쿼리는 성능 저하 문제와 인젝션 공격에 노출되는 위험성을 가지고 있다. #정규 표현식(regular expression) -$regex연산자: 요소를 제공된 정규 표현식과 맞춰 본다. -prefix 타입의 쿼리를 제외하고는 정규 표현식 쿼리는 인덱스를 사용할 수 없고, 대부분의.. 2021. 1. 20.
[NoSQL] MongoDB 쿼리 언어 총정리1 #셀렉터 매칭 -가장 간단한 쿼리는 키-값 쌍이 도큐먼트에 문자적으로 일치하는 셀렉터를 사용하는 쿼리다. ex) db.컬렉션이름.find({"키":"값"}) db.컬렉션이름.find({"키1":"값1","키2":"값2"}) -하나 이상의 키 값을 넘겨줄 때는 조건이 모두 매치되어야 한다.(쿼리 조건 함수는 논리적 AND) -MongoDB에서 모든 텍스트 문자열 일치는 대소문자를 구분한다.(Case sensitive) #범위 연산자 범위 해당하는 연산자 $lt ~보다 작은 $lte ~보다 작거나 같은 = ex) db.컬렉션.find({'birth_year': {'gte': 1985}, 'birth_year': {'$lte': 2015}}) 위의 쿼리는 1985년보다 크거나 같고 2015년보다 작거나 같은 .. 2021. 1. 20.
[Data&SQL] Ad-Hoc , Ad-Hoc 쿼리란? Ad-Hoc이란? 라틴어로, 직역하면 그것에 대해서라는 뜻. '임시변통 가설'이라고 번역되기도 한다. '거짓말은 하지 않는다'의 훌륭한 예시이며, 대개 무의미하다. 학문적인 의미로 쓰일 때는 Ad Hoc가설이라 해서, '어떤 이론이나 학설, 논리에 대한 부정적인 근거나 반박이 나왔을 때 오직 그것에 대해서 반박하기 위해서만 필요한 가설', '반박을 위한 반박', '임시방편'을 일컫는다. 피반박자가 갖고 있는 의제가 논파되지 않도록 하기 위한 일종의 궤변이라고 생각하면 편하다. 즉, 문제에 대해 충분히 일반화되지 않은 해법인 셈.(임시(임기변통)의 뜻, 즉석에서 만드는 의 뜻이 강함) Ad-Hoc 쿼리란? 말그대로 Ad-Hoc의 성격을 띈 query이다. ex) 좀 여유롭게,혹은 특정한 형식 없이 사용할 .. 2021. 1. 19.
728x90