운영계 시스템
- 기업 운영에 필요한 업무용 시스템이며, 이 시스템의 사용자는 직원이 될 수도 있고, 외부 고객이 될 수도 있음
- 예를 들어 전자상거래 사이트에서 물건을 주문했을 경우, 인터넷뱅킹 사이트에서 이체를 진행했을 경우, 내부 인사시스템의 사원 정보를 갱신하는 경우와 같이 프로세스가 모두 운영계 시스템에서 처리
- 이 시스템에 발생하는 데이터는 대부분 데이터베이스 트랜잭션 단위로 데이터를 처리하고, 저장하며 흔히 OLTP(Online Transaction Processing) 데이터라고 표현
금융권 운영계
운영계시스템을 분류하여 기간계, 계정계, 정보계, 대외계와 같은 용어를 사용합니다.
1. 기간계(Legacy, Existing)
1) 정의 : 고객이 사용하던 기존 시스템(새로운 시스템 도입 기준시점 AS-IS)
2. 계정계
1) 정의 : 금융권 영업점에서 실시간으로 고객의 거래를 처리하기 위한 업무 정보.
2) 사용 예 : 고객의 통장 정보(계좌 번호, 입ㆍ출금, 이체, 펀드, 주식 등)
3. 정보계
1) 정의 : 거래의 이력 데이터를 관리하고, 그 데이터의 통계 및 분석하는 시스템.
2) 특징 : 저장된 데이터를 바탕으로 앞으로의 예측, 결산, 분석 등의 업무를 처리.
정보계에서 데이터로의 접근성에 대한 속도가 중요.
4. 대외계
1) 정의 : 각 금융기관의 대내외 망을 연결하는 시스템
2) 사용 예 : 전자금융, 사이버 증권, 기업 뱅킹, CD공동망, 신용 정보
위 4가지 용어 모두 시스템을 나타냄
시스템이 어느 시점, 어느 구간에서 구축이 되었는가를 구분하기 위해서 사용
ODS(Operational Data Store)
운영계 시스템의 데이터는 트랜잭션을 중심으로 설계되어 있기 때문에, 운영계 시스템 데이터를 대상으로 데이터 분석을 진행할 경우 효용성이 매우 떨어진다.
그래서 데이터 분석을 위한 DW(Data Warehouse)를 설계하고, 데이터를 보관하게 된다.
ODS는 EDW로 데이터를 저장하기 전에, 임시로 운영계 데이터를 보관하는 장소이며, 운영계 시스템의 이력성 데이터를 보관을 하게 된다.
참고로 ODS가 별도로 존재할 경우에는 운영계 시스템의 복사본으로 활용되며, DW의 일부일 경우에는 임시 저장소로 사용됩니다.
*ODS는 이러한 임시 저장소의 역할을 하게끔 정해놓았을 뿐, 데이터베이스의 테이블로 생성되었다.
EDW의 정의(Enterprise Data Warehouse)
ODS를 거쳐 운영 데이터베이스(Operational Database) 및 외부 데이터 Source로부터 필요 데이터를 추출하여, 경영분석/의사결정의 지원을 위해 최적화된 구조로 변환된 데이터베이스.
EDW의 4가지 특징
1. 주제 중심적 (Subject oriented)
2. 통합적 Integrated)
3. 계열적 (Time Variant Historical)
4. 장기 지속적 (Non-Volatile)
DW (Data Warehouse)
Raw Data를 통한 분석자료를 제공하여 조직내 의사결정을 지원하는 정보관리 시스템
DW 4가지 특성
EDW와 마찬가지로 4가지의 특성
- 주제지향(Subject Oriented): data를 categorizing하여 End User에게 이해하기 쉬운 형태 제공
- 통합(Integrated): raw data를 일관적인 포맷으로 변환하여 저장
- 시계열(Time Variant): DW내의 data는 일정기간동안 정확성을 나타냄
- 비휘발성(Nonvolatile): DW에 적재 후 일괄처리(batch) 작업에 의한 갱신 이외에는 삽입, 삭제 등의 변경이 수행되지 않음
- 더 나은 의사 결정
- 여러 소스로부터의 데이터 통합
- 데이터 품질, 일관성 및 정확성
- 인텔리전스 기록
- 분석 처리프로세스를 트랜잭션 데이터베이스로부터 분리하여 두 시스템의 성능을 모두 향상시킴
- 데이터를 효율적으로 저장하여 보고서, 대시보드 및 분석 도구를 강화함으로써 데이터의 입출력(I/O)을 최소화
EDW와의 구별되는 점
- DW와 EDW의 개념은 같으나 규모,복잡성의 차이가 있음
*현실의 웨어하우스와 마찬가지로 기업들은 대부분 용도에 따라 여러 개의 데이터 웨어하우스를 갖고 있다.(한개가 아니다)
*데이터 웨어하우스라는 뜻은 이 테이블은 데이터 웨어하우스의 역할을 하게끔 구별을 한 느낌, 즉 데이터 웨어하우스는 데이터베이스의 테이블로써 생성.
DM (Data Mart)
OLAP분석의 편의성을 높이고자, EDW의 데이터를 주제별, 업무별로 요약하여 구성한 데이터 저장소
일반적으로 각 부서별로 다양한 예측과 분석을 목표로 만들어짐
*데이터웨어하우스와 마찬가지로 데이터마트도 용도에 따라 여러 개의 데이터 마트를 갖고 있다.
*데이터 마트라는 뜻은 이 테이블은 데이터 마트의 역할을 하게끔 구별을 한 느낌, 즉 데이터 마트는 데이터베이스의 테이블로써 생성.
OLAP
고객의 업무를 분석하고 다차원 모델링을 활용하여 Data Mart를 구축하고, OLAP (On Line Analysis Process)를 구현함으로써, 시각화 도구, 데이터 마이닝 시스템이 이 분류에 포함됩니다.
ETL(Extraction, Transform, Load)
- 넓은 의미로 ETL은 데이터를 옮기고 변형하고 다시 옮기는 작업 즉, 데이터를 추출, 가공, 적재하는 프로세스를 뜻함
- 일반적인 의미는 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정
- 운영계 시스템과 ODS, ODS와 DW, DW와 DM간에 ETL이 진행
- 데이터 변환에는 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함되는데 SQL,Hadoop MR, Hive, Spark과 같은 것들이 대표적인 데이터 변환에 사용되는 기술이다.
- source system에서 표현계층으로 가는 과정
Data Lake & ELT(Extract Load Transform)
Data Lake:
- 대규모의 다양한 원시 데이터 세트 즉 어떠한 형태의 데이터든 형태에 관여 받지않고 그대로 저장하는 데이터 저장소 유형
- 일단 저장하고, 사용할 때 스키마를 읽는 방식
- 데이터 탐색, 데이터 분석 및 기계 학습에 주로 사용
- 데이터 웨어하우스의 데이터 원본으로 사용할 수도 있음
- ELT(추출-적재-변형)파이프라인을 사용함
- 스키마 정의 없이 많은 양의 정형,반정형,비정형 데이터를 유지하므로 이벤트 스트리밍 또는 IoT 시나리오에서 자주 사용
ELT:
- 기존의 추출-변환-적재인 ETL과 달리 ELT는 추출-적재-변환의 과정
- 대량의 데이터가 발생하다보니 선 저장 후 용도에 따라 탐색/처리에 관련된 개념
- 정형 데이터 뿐만아니라 비정형,반정형 데이터를 활용해야 되는 양이 많아지다보니 속도를 중요하시면서 더욱 부각된 개념
- ETL 또한 가벼운 변환작업, 1차적인 데이터 정제 및 레거시 필터링 등의 용도에서 지속적으로 사용됨
DW vs Data Lake
특징 | 데이터 웨어하우스 | 데이터 레이크 |
데이터 | 트랜잭션 시스템, 운영 데이터베이스 및 사업 부서(LOB) 애플리케이션의 관계형 데이터 | 정형, 반정형 및 비정형 등 모든 데이터 |
스키마 | 일부 경우 데이터 웨어하우스를 구현하기 전 설계되며 분석과 동시에 작성 가능 (스키마-온-라이트 또는 스키마-온-리드) |
분석 시에 작성됨(스키마-온-리드) |
가격/성능 | 로컬 스토리지를 사용하여 가장 빠른 쿼리 결과를 얻음 | 저렴한 스토리지를 사용하여 쿼리 결과가 빠르게 제공되며 컴퓨팅 및 스토리지 분리 |
데이터 품질 | 신뢰할 수 있는 중앙 버전 역할을 하는 고도로 큐레이트된 데이터 | 큐레이트될 수 있거나 될 수 없는 모든 데이터(즉, 원시 데이터) |
사용자 | 비즈니스 애널리스트, 데이터 사이언티스트 및 데이터 개발자 | 비즈니스 애널리스트(큐레이팅된 데이터 사용), 데이터 사이언티스트, 데이터 개발자, 데이터 엔지니어 및 데이터 아키텍트 |
분석 | 배치 보고, BI 및 시각화 | 기계 학습, 예비 분석, 데이터 검색, 스트리밍, 운영 분석, 빅 데이터 및 프로파일링 |
DW vs transaction Database
특징데이터 | 웨어하우스 | 트랜잭션 데이터베이스 |
적합한 워크로드 | 분석, 보고, 빅 데이터 | 트랜잭션 처리 |
데이터 원본 | 여러 소스로부터 수집되고 정규화된 데이터 | 트랜잭션 시스템과 같이 단일 소스에서 있는 그대로 캡처한 데이터 |
데이터 캡처 | 대개 미리 결정된 대량 배치 일정에 따른 대량 쓰기 작업 | 트랜잭션 처리량을 최대화할 수 있도록 새로운 데이터가 사용 가능해지면서 연속적인 쓰기 작업에 최적화됨 |
데이터 정규화 | 스타 스키마 또는 눈송이 스키마와 같이 비정규화된 스키마 | 고도로 정규화된 정적 스키마 |
데이터 스토리지 | 컬럼 방식 스토리지를 사용하여 간단한 액세스 및 고속 쿼리 성능에 대해 최적화됨 | 단일 행 지향 물리적 블록에 대한 고도의 처리량 쓰기 작업에 최적화됨 |
데이터 액세스 | I/O를 최소화하고 데이터 처리량을 최대화하도록 최적화됨 | 대량의 소규모 읽기 작업 |
Data Mart vs DW
특징 | 데이터 웨어하우스 | 데이터 마트 |
범위 | 함께 통합된 중앙 집중식의 여러 주제 영역 | 분산된 특정 주제 영역 |
사용자 | 전사적 | 단일 커뮤니티 또는 부서 |
데이터 원본 | 여러 소스 | 단일 또는 몇 개의 소스, 또는 데이터 웨어하우스에 이미 수집된 데이터의 일부 |
크기 | 대규모이며 수백 기가바이트에서 페타바이트에 이를 수 있음 | 소규모이며 대개 최대 수십 기가바이트에 이름 |
설계 | 하향식 | 상향식 |
데이터 세부 정보 | 완전한, 상세 데이터 | 요약된 데이터를 포함할 수 있음 |
참조:
https://bangu4.tistory.com/62
https://artist-developer.tistory.com/37
'IT용어' 카테고리의 다른 글
[운영체제] daemon 데몬이란? (0) | 2021.05.24 |
---|---|
[IT용어] (데이터 이관) CDC(Change Data Capture), ETL(Extract Transform Load), ODS(Operational Data store) (0) | 2021.05.15 |
JSON(JavaScript Object Notation), BSON(Binary JSON) (0) | 2020.10.12 |
IT Infra Architecture(인프라 아키텍처) (0) | 2020.09.14 |
C vs C++ vs C# (0) | 2020.07.28 |
댓글