본문 바로가기
728x90

DataBase/Data & SQL18

[Data] 마스터 데이터 vs 트랜잭션 데이터, fact테이블 vs dimension 테이블, 시계열 데이터란? 마스터 데이터란? 트랜잭션 데이터란? 트랜잭션 데이터(transaction data): 시간과 함께 생성되는 데이터를 기록한 것 한 번 기록하면 시간과 함께 생성되기에 변화하지 않는다. 트랜잭션 데이터 는 트랜잭션에서 수집한 정보입니다. 거래가 진행된 시간, 발생한 장소, 구매한 항목의 기준 소매 가격, 사용된 지불 방법, 할인(있는 경우), 거래와 관련된 기타 수량 및 품질이 기록 트랜잭션 데이터는 일반적으로 정형 데이터 범주에 속합니다. 몇 가지 예는 다음과 같습니다. 금융 트랜잭션 데이터: 보험 비용 및 청구 데이터, 또는 구매 또는 판매 데이터, 은행의 경우 입출금 데이터물류 트랜잭션 데이터: 배송 상태 데이터, 배송 파트너 데이터업무 관련 트랜잭션 데이터: 직원 시간 추적 ex) 판매 이력 마스.. 2021. 8. 6.
[Data] 데이터 레이크(data lake)란? 데이터 레이크란? 데이터를 있는 그대로 축적해서 모아두는 곳 데이터를 원래의 형태(미가공의 원시데이터)로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조 데이터를 축적하는 호수에 비유 CSV나 JSON 등의 범용적인 반구조화 텍스트형식이 대부분 사용된다. 구조화된 데이터, 반구조화 된 데이터, 비구조화 데이터가 적재된다. 데이터 웨어하우스를 대체하는 개념 하둡의 HDFS, AWS S3처럼 객체 저장소가 데이터 레이크의 역할을 수행 할 수 있다. *구조화 데이터: 스키마가 명확하게 정의된 데이터 ex) 테이블,csv(반구조화가 될수도 있음),스프레드시트(반구조화가 될수도 있음) *반구조화 데이터: 스키마리스 데이터 라고도 불리며, 데이터 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터.. 2021. 8. 6.
[SQL] NULL 과 NULL처리 함수,연산자 NULL이란 알려지지않은 값(unknown),정해지지 않은 값으로 공백과 0과는 다른 개념. ORACLE NULL처리함수 NVL(컬럼명,지정값) -입력한 컬럼명의 값이 null인 경우 지정값으로 대체 NVL2(컬럼명,지정값1,지정값2) -입력한 컬럼명의 값이 null이 아닌경우 지정값1로 대체, null인 경우 지정값2로 대체 ORACLE및 다른 모든 DBMS NULL처리 함수 COALESCE(expr1,expr2,expr3,…) -expr1이 NULL이 아니면 expr1값을, 그렇지 않으면 COALESCE(expr2,expr3,…)값을 반환. -주어진 인수에서 첫번째로 null이 아닌 값을 반환 ex1) COALESCE(empno,1) empno가 null이면 1 empno가 null이 아니면 empn.. 2021. 3. 4.
[Data&SQL] Ad-Hoc , Ad-Hoc 쿼리란? Ad-Hoc이란? 라틴어로, 직역하면 그것에 대해서라는 뜻. '임시변통 가설'이라고 번역되기도 한다. '거짓말은 하지 않는다'의 훌륭한 예시이며, 대개 무의미하다. 학문적인 의미로 쓰일 때는 Ad Hoc가설이라 해서, '어떤 이론이나 학설, 논리에 대한 부정적인 근거나 반박이 나왔을 때 오직 그것에 대해서 반박하기 위해서만 필요한 가설', '반박을 위한 반박', '임시방편'을 일컫는다. 피반박자가 갖고 있는 의제가 논파되지 않도록 하기 위한 일종의 궤변이라고 생각하면 편하다. 즉, 문제에 대해 충분히 일반화되지 않은 해법인 셈.(임시(임기변통)의 뜻, 즉석에서 만드는 의 뜻이 강함) Ad-Hoc 쿼리란? 말그대로 Ad-Hoc의 성격을 띈 query이다. ex) 좀 여유롭게,혹은 특정한 형식 없이 사용할 .. 2021. 1. 19.
[Data]로그 데이터 수집 -로그 데이터는 빅데이터 관련 기술의 혜택을 가장 많이 받은 데이터일 것이다. -IT 환경에서 가장 많이 발생하는 데이터지만, 데이터 처리 기술이 최근처럼 발달하지 않았던 시기에는 처리 비용에 비해 가치가 낮은 데이터로 여겨졌다.(mongoDB와 같은 단순 대용량 데이터를 다루는 nosql dbms를 통해 관리) -하지만 지금은 사물인터넷(IoT)의 급부상과 함께 그 효용성이 날로 증가하고 있다 -로그 데이터를 수집해야 할 상황이라면, 수집환경과 수집 데이터를 처리하고자 하는 시스템을 고려해 수집기술을 선택해야 한다. -로그데이터를 수집하기 위한 수집기술 선택 시 고려해야 할 사항은 확장성, 안정성, 유연성, 주기성이다. #로그데이터 수집 시 고려할 사항 확장성 수집의 대상이 되는 시스템이 얼마나 늘어날.. 2021. 1. 7.
[Data]데이터 수집 방법 및 기술(Data Extraction) 수집방법의 분류 수집방법의 종류는 일반적 수집 데이터의 형태와 종류에 따라 크롤링, ETL, 로그수집, ftp, http, RDB 수집방법으로 분류했지만, 여기에는 수집기술, 연동방법 등이 혼합돼 있다. 수집 대상 데이터의 형태와 대상 데이터와의 연동방법 방법에 따라 수집방법을 정의하고, 수집방법의 분류에 대해 설명합니다. 데이터와 서비스 활용 먼저 인지해야 할 사항은 서비스 활용에 필요한 모든 데이터는 디지털화한 결과물이라는 것이다. 디지털 데이터는 형태가 어떤 것이든 각각의 해석기가 존재한다. 해석기를 통해 보통은 텍스트 형태의 가시적 데이터로 혹은 음성이나 동영상 같이 서비스 이용자가 인지할 수 있는 형태로 서비스를 제공한다. 파일 형태의 스프레드시트라면 스프레드시트 지원 프로그램을 통해 데이터를 .. 2021. 1. 5.
[Data]데이터 수집 절차 프로젝트의 프로세스 정의 일반적인 프로젝트와 데이터 수집이 포함된 프로젝트의 프로세스를 일반화하기 어려우므로 세 가지 부분으로 나누어 일반화 시켜보자. 여기서는 데이터 입력, 데이터 처리, 서비스 제공으로 나누어 보았다. -데이터입력 일반 프로젝트 사용자가 데이터 발생의 주체가 되며 데이터 입력자가 데이터에 대한 오너십을 가진다. 데이터는 트랜잭셕 하나에 한 건씩 발생시킨다. 수집관련 프로젝트 수집 프로세스 자체가 데이터 발생의 주체가 되며 수집 정책에 관련된 기술에 대한 데이터 오너십이 존재한다. 데이터는 프로세스 하나에서 여러건 발생 할 수 있다. -데이터처리 일반 프로젝트 입력된 데이터의 사전처리 및 사후처리 과정이 거의 존재하지 않으며 원본 데이터의 변경이 이뤄지지 않는다. 수집관련 프로젝트 대부.. 2021. 1. 5.
[Data]데이터의 특징과 종류, 수집 일반적인 데이터의 특징구분정성적 데이터정량적 데이터형태비정형 데이터정형ㆍ반정형 데이터특징객체 하나에 함의된 정보를 갖고 있다.속성이 모여 객체를 이룬다.구성언어, 문자 등으로 이루어짐수치, 도형, 기호 등으로 이루어짐저장 형태파일, 웹데이터베이스, 스프레드시트소스 위치외부 시스템(주로 소셜 데이터)내부 시스템(주로 DBMS)수집활동에서 데이터의 특징구분가역적 데이터불가역적 데이터환원 가능성의존성원본 데이터와의 관계처리 과정활용 분야구분가역적 데이터불가역적 데이터환원 가능성가능하다불가능하다의존성원본 데이터에 의존적원본 데이터에 독립적원본 데이터와의 관계1:1 관계1:N 혹은 N:1처리 과정탐색병합활용 분야데이터 웨어하우징, 로그 수집소셜 분석, 텍스트 마이닝데이터 수집을 위해 가장 먼저 고려해야 할 사항은.. 2021. 1. 5.
oracle, ms-sql DDL ,DML ,DCL ,TCL정리 1.DML(Data Manipulation Language) -데이터 조작어로 테이블에 입력, 수정, 삭제,검색하는 언어이다. -INSERT, UPDATE, DELETE, SELECT(DML이라고도 불리고, DQL이라고도 불린다.) 1.INSERT(데이터 삽입) ex) INSERT INTO 테이블명 [(칼럼1, 칼럼2, ...)] VALUES (값1, 값2, ...); -칼럼명의 기술 순서는 테이블에 정의된 칼럼 순서와 동일할 필요는 없으며, INTO 절에 기술하지 않은 칼럼은 Defalut로 NULL값이 입력된다. -해당 칼럼의 데이터 유형이 CHAR나 VARCHAR2등 문자 유형일 경우 ''(Single Quotation)과 함게 입력한다. -숫자 유형일 경우엔 ''없이 숫자만 입력한다. 2.UPDA.. 2020. 12. 9.
728x90