728x90
-로그 데이터는 빅데이터 관련 기술의 혜택을 가장 많이 받은 데이터일 것이다.
-IT 환경에서 가장 많이 발생하는 데이터지만, 데이터 처리 기술이 최근처럼 발달하지 않았던 시기에는 처리 비용에 비해 가치가 낮은 데이터로 여겨졌다.(mongoDB와 같은 단순 대용량 데이터를 다루는 nosql dbms를 통해 관리)
-하지만 지금은 사물인터넷(IoT)의 급부상과 함께 그 효용성이 날로 증가하고 있다
-로그 데이터를 수집해야 할 상황이라면, 수집환경과 수집 데이터를 처리하고자 하는 시스템을 고려해 수집기술을 선택해야 한다.
-로그데이터를 수집하기 위한 수집기술 선택 시 고려해야 할 사항은 확장성, 안정성, 유연성, 주기성이다.
#로그데이터 수집 시 고려할 사항
확장성 | 수집의 대상이 되는 시스템이 얼마나 늘어날 것인가? |
안정성 | 수집되는 데이터가 손실되지 않고 안정적으로 저장 가능한가? |
유연성 | 다양한 데이터의 형식과 접속 프로토콜을 지원하는가? |
주기성 | 수집 데이터가 실시간으로 반영돼야 하는가 혹은 배치처리를 해도 가능한가? |
-대표적인 로그 수집기로서 아파치의 FLUME과 Chukwa, 페이스북에서 스트리밍 데이터를 처리하기 위해 개발된 Scribe를 들 수 있다.
#주요 로그 수집 프로그램
FLUME (아파치 톱 레벨 프로젝트) |
Scribe (페이스북 오픈소스) |
Chukwa (아파치 인큐베이터 프로젝트) |
|
개발 주체 | 아파치 | 페이스북 | 아파치 |
특징 | 대용량 로그 데이터를 안정성, 가용성을 바탕으로 효율적으로 수집 | 수많은 서버로부터 실시간으로 스트리밍 로그 수집 | 하둡의 서브 프로젝트로 분산서버에서 로그 데이터를 수집ㆍ저장ㆍ분석하기 위한 솔루션 |
#로그 수집 프로그램 비교
구분 | FLUME | Scribe | Chuckwa |
수집방법 | 다양한 소스로부터 데이터를 수집해 다양한 방식으로 데이터를 전송할 수 있다. 아키텍처가 단순하고 유연하며, 확장 가능한 데이터 모델을 제공하므로 실시간 분석 애플리케이션을 쉽게 개발할 수 있다. |
클라이언트 서버의 타입에 상관없이 다양한 방식으로 로그를 읽어 들일 수 있다. | 수집된 로그 파일을 hdfs에 저장한다. |
처리방법 | 각종 Source, Sink 등을 제공하므로 쉽게 확장이 가능하다. | 단, Apache Thrift는 필수. Thrift 기반 Scribe API를 활용해 확장 가능하다. | hdfs의 장점을 그대로 수용했고, 실시간 분석도 가능하다. |
특징 | 최근 국내의 빅데이터 솔루션에서 수집 부분에 많이 채택되고 있다. | 페이스북의 자체 Scaling 작업을 위해 설계돼 현재 매일 수백 억 건의 메시지를 처리하고 있다 | 지나치게 하둡에 의존적이라는 단점이 있다. |
출처:
728x90
'DataBase > Data & SQL' 카테고리의 다른 글
[SQL] NULL 과 NULL처리 함수,연산자 (2) | 2021.03.04 |
---|---|
[Data&SQL] Ad-Hoc , Ad-Hoc 쿼리란? (0) | 2021.01.19 |
[Data]데이터 수집 방법 및 기술(Data Extraction) (0) | 2021.01.05 |
[Data]데이터 수집 절차 (0) | 2021.01.05 |
[Data]데이터의 특징과 종류, 수집 (0) | 2021.01.05 |
댓글