본문 바로가기
728x90

태그

spark Python airflow MySQL pyspark hadoop AWS docker Hive apache airflow k8s linux kubernetes emr ubuntu SQL dataframe mongoDB Oracle 하둡 클러스터 metastore Container scala ec2 Git s3 core PostgreSQL java Hadoop cluster 에어플로우 RDD executor csv Yarn memory ssh Network spark-submit Parquet DAGS 하둡 설치 Zookeeper NoSQL etl 스파크 partition 파이썬 database Airflow on k8s 멀티 노드 boto3 docker-compose lxml GitHub schema Push driver jsp vCore spark UI 로그 데이터 Columnar kubectl 쿠버네티스 bs4 pycharm AWS EC2 Spark Tuning pandas hql redis 데이터 수집 BigData hdfs MapReduce RDS centOS Virtual Box Domain json 주키퍼 Branch 클래스 데이터 DBMS map flower Class instance http dns select 데이터베이스 함수 카프카 externaltasksensor kubernetespodoperator 2.7.1 KubernetesExecutor CeleryExecutor EMR Serverless EmailOperator Scala Spark row based AuroraDB spark.sql.shuffle.partitions spark.conf.set airflow dag airflow 실습 hive on hadoop cluster 완전 분산 모드 Target table Source table fully-distributed 마스터 데이터 centos-7 hive-site.xml vpc peering CTAS 데이터 표준화 Data Pipeline kubespray pull request data lake kubeadm 데이터 종류 docker file INSERT INTO SELECT apache spark minikube Tez Jupyter Notebook .jar apache kafka Mesos dynamodb ansible centOS7 avro Spark on YARN impala ODS git error skew NVL overwrite kafka webserver REST API DAG tuple python3 옵티마이저 proxy server subnet 튜플 ifnull 하둡 스칼라 orc vi Editor scheduler vpc Pendulum Iam 메소드 SDK Iterator create BATCH COMMIT 아키텍처 자료형 회고록 ip주소 실행계획 notepad++ https 상속 dictionary Pod 생성자 deployment data Pull TimeZone object null os operator Shell Script XML 로그 권한 merge PowerShell 모듈 변수 CPU while REST HA 컨테이너 명령어 vmware list 운영체제 출처 origin Shell If virtualbox db nslookup decode error table ajax for return Service Windows IP 네트워크 javascript 리눅스 function 객체지향 multi node ariflow 3.0 map vs flatmap 작은 스펙 큰 스펙 memory spill disk spill spill spark operation 지연 처리 spark 4 분산형 공유 변수 누산기 스파크 공유 변수 micro batch dstream api 이슈 정리 helm 1.11.0 airflow version upgrade dag 이전 프로세스 단축 dagfactory kubernetes executor airflow 구축 s3keysensor sla= service layer agreement dag호출 triggerdagrunoperator sshoperator resource 정의 dag_management logs dag parsing fernet key 2.1.3 2.5.3 CMAK Mongodb production EC2 stop all_done all_success Trigger Rule SG설정 NoSQL Booster airflow on k8s 설치 Worker pod Task Factory TaskGroup Catalyst Optimizer Sharded Cluster Simple Mail Service 기준년월 파티션데이터 PythonOperator pyscopg2 spark 성능 Spark 2.x vs Spark 3.x Dynamically optimizing skew joins Dynamically Swithing Join Strategies Dynamicaaly Coalescing Shuffle Partitions Spark3.x unified memory manager reserved memory execution memory storage memory spark memory 데이터베이스 이관 Cluster vs client Client mode Spark on Hadoop sbt1.3.10 Glue Crawler Slack 전송 on_success_callback on_failure_callback 알림받기 Apahce airflow EmrServerlessStartJobOperator EMR 6.11.0 ETL 파이프라인 Spark Job EmrStepSensor EmrAddStepsOperator EmrCreateJobFlowOperator API 서빙 Spark dataframe spark app mapValues 싱글톤객체 믹스인 컴포지션 싱글톤 객체 스칼라 기본문법 함수형 언어 이직 회고 첫 이직 s3 download s3 upload 로그 관리 사용자 행동데이터 log data Managed Airflow Celery worker Celery Executor 시험 비용 block file system s3n s3a Private Synonym Public Synonym Distinct count Join Type bucketing IG gateway Trainsit Gateway outbound Glue ETL column oriented number of Input Batches Columnar format SQL 성능 Control tower IAM Role IAM user GlueCatalog Lakeformation route tables Bastion Server Scan time Physical Plan CREATE EXTERNAL TABLE Glue Catalog 빈로그 INPUT size loop query python 연동 바인딩 변수 bind variable select version() mysql version docker-compose.yaml JIT compile Projection pushdown Predicate pushdown PushedFilter PartitionFilter Standby EBS Primary EBS xml.etree.ElementTree sys 메소드 입력 내장함수 python3.x python2.x .YAML .YML YAML file container IP container 통신 container orchestration AWS SES VPC ENDPOINT node components amazon linux2 cluster cost optimization name space container life cycle ./bash_profile /etc/bashrc 턴키형 쿠버네티스 설치형 쿠버네티스 관리형 쿠버네티스 pyspark vs pandas virutal box Database PostgreSQL dunder method special method magic method PySpark 기본개념 문법자유도 1차배열 random.randint show variables 소프트웨어 개발 방법론 Secrets Manager Landing Zone Master Data amazingtalker 어메이징토커 쌍 따옴표 홑 따옴표 double quotation single quotation aws mwaa Transit Gateway persist() cache() .class EMRFS StopIteration sequence type __next__ dataframe vs rdd vs dataset spark 자유도 pyspark 문법 파이썬의 특징 vs code studio 변수입력받기 2차배열 dictionary comprehension set comprehension tzinfo multi processing format method covid19 api EC2 자동화 EC2 recipe EC2 image builder EC2 auto terminate EC2 terminate 코로나 감염현황API spark write 코로나감염 API 공공데이터 API cpython 데이터 활용 신청 코로나19 감염현황 new york taxi read & write pip install pyspark if __name__=="__main__": rebase vs merge merge vs rebase airflow-scheduler.service airflow-webserver.service spark란? spark 개요 spark core mysql-connector-python kafka cluster cores shuffle partitions spark shuffle physical query plan logical query plan Spark query plan RDD vs Dataframe DF to RDD RDD to DF pyyaml Availability Zone memeory spark conf SparkSession.config spark-defaults.conf master node File Storage schedule_interval airflow 개념 core당 스레드 vCPU hive job 던지기 hive on yarn write parquet from_unixtime() current_date() current_timestamp() Datefunction repartition() hdfs ui pyspark ETL hdfs 확인 .py spark submit spark submit spark local install 리눅스 스파크 인터프리터 변경 interpreter change 서비스 데이터 Hadoop ETL hadoop 실습 hive 실습 멱등성 hive on hadoop HQL 실행 Visual C++ Redistributable msvcp100dll spark exception 스파크 클러스터 모드 spark on hadoop cluster 하이브 설치 hadoop 실행 호스트변경 Java환경 설정 spark error .py .ipynb nbconvert apache-airflow airflow cluster 쿠버네티스 아키텍처 AWS SDK image build partition prunning spark partition foreachPartition aws vpc etcd partitionBy Spark Application RLIKE longtype 2024 스냅샷 테이블 비정규화 테이블 이력 테이블 디멘젼 테이블 펙트 테이블 트랜잭션 데이터 객체 저장소 python interpreter pyodbc 메타정보 MSCK greentaxi data accumulator Orchestration start_date execution_date BashOperator 배포판 종류 winutils 마스터데이터관리 pythonic Snap Shot Data sys.stdin.readline() dataframe api docker pull docker push 파이써닉 docker commit docker images dataframe method RDD to DataFrame Ad-Hoc query 기간계 Index사용하여 도큐먼트조회 Index조회 Index생성 SQL처리과정 데이터 크롤링 4.4version mongoimport MongoDB import 프로세스구조 오라클 Database구조 AWS EC2 instance data extraction 데이터 수집 기술 데이터 수집 방법 데이터 수집절차 반정형 데이터 partitions bastion host 리소스 매니저 데이터 표준관리 시스템 데이터 표준화 개념 스파크 설치 spark cluster igw 진입점 pub/sub Connection pools 커넥션 풀 unix_timestamp Data Engineer CentOS-8 TABLE생성 TABLE SPACE map함수 callback함수 Collection Type Binary JSON select_one PyPy3 NAT Gateway 인프라 아키텍처 Infra architecture 데이터 마트 대용량 데이터베이스 대용량 DB 대규모 서비스 대규모 웹 서비스 데이터 엔지니어 scrapy .war 코로나api 돈의 의미 https://goodgid.github.io/What-is-Multi-Thread/ Query Plan ubuntu 20.04 https://aws.amazon.com/ko/devops/what-is-devops/?nc1=f_cc https://www.fun-coding.org/AWS1.html git 오류 데이터엔지니어 find_all f-string datagrip ClusterIP Nodeport pymongo pipenv **kwargs *args anaconda3 docker build import error 시계열데이터 Tree구조 list comprehension input() tk8 ndarray ubuntu18.04 데이터 파이프라인 SparkSession cs 지식 cluster mode loadbalancer python list 데이터 레이크 Storage Level 공공데이터포털 aws s3 upstream 추천 알고리즘 python3.6 route53 Ubuntu 18.04 Control Plane iterable kubectl 명령어 docker swarm docker volume dockerfile docker-compose.yml 2025년 NCP serde 트레잇 리턴값 스파크 스트리밍 DStream spark streaming 바이너리 로그 python2 데이터 엔지니어링 block storage object storage yaml 2021년 DATE_FORMAT() spooling 2024년 시스템 카탈로그 행동데이터 roll back RestAPI regexp_replace 비정형 데이터 경력직 이직 접근제어자 Venv A레코드 MSA typescript 백준 알고리즘 inbound Grafana 멤버 변수 빅데이터 처리 데이터 처리 timedelta 2023년 Variables Work Flow 구현체 javascript object notation argparse celery 데이터 이관 Temp Table #윈도우 glob Go lang 도커 nvl2 DBeaver 정형 데이터 COALESCE() 깃헙 기본 문법 fluentd __name__ 하둡설치 Port Forwarding COMPANION git hub 추상 클래스 fully distributed mode 행동 데이터 HAProxy beautifulsoup4 hadoop ecosystem upsert Flume mariadb /etc/profile Numpy 깃허브 스파크 튜닝 flask 공공데이터 aws cli .java 정합성 PyPI virtualenv trait GROUPBY next() CDH 윈도우 명령어 Ingress 몽고DB psql capped Terminate fully distributed 의존관계 객체지향 프로그래밍 비대칭키 prometheus EDW python2.7 stand alone ssh tunneling Window Function scrapping 빅데이터 쉘 스크립트 sbt IntelliJ singleton object kernal OLTP HBASE isnull Kops 코딩 컨벤션 RabbitMQ 가상화 기술 revoke cassandra synchronous sharding 메모리구조 Tasks memcached formatting partitioning BSON 몽고디비 public key 무결성 2022년 활용사례 직장인 자기계발 Guava NGINX Secure Sockets Layer Read&Write 데이터 동기화 CRUD 정보계 RAC aggregation Selector Cheat Sheet 고가용성 Domain name system decompile 개발자 도구 BeautifulSoup Redshift yield Logs front end 외부조인 owner 대칭키 dynamic allocation vi 편집기 duration Nullif 내부조인 Slack spool MySQL 에러 데이터 타입 새로운 도전 SYS 비동기 lazy evaluation coding convention Utuntu rdate workbench sudo html태그 private key 데이터베이스연동 presto concat .profile 환경 변수 설정 jobs COALESCE Linux 설치 parallelism Constraints 스크럼 mysql connector binlog Hypervisor CouchDB 비용 절감 하이브 액션태그 TSV 텍스트 에디터 BigTable dummy concurrency EIP redhat RESTful indexing MDM config Pipeline parser GROUP BY 포트번호 ROW_NUMBER metrics Elk scrum Programming Language 계층구조 로거 파일 형식 bash 분기문 debian base64 프록시 서버 Except elements explain reduce finally broadcast jad Selenium rsa threading do while TRUNCATE Dependency .bashrc worker routing protocol 오버라이딩 권고사직 개인키 DML DDL SELinux CNAME tls consumer File System regular Expression override 스키마 CERTIFICATE Gateway Clone 감지 jquery bind App LB 3년차 다양한 경험 애자일 디컴파일 Info proxy 기본문법 cron transformation 딕셔너리 order by datetime ASYNCHRONOUS tunneling replica pip Properties 회고 nohup Operation 리눅스 명령어 Athena Comments vpn 인프라 화상영어 constructor 부울린 표준화 streaming Compiler Else 연산 매개변수 topic 객체 DM 들여쓰기 Probe 자동화 공개키 File Format sort void node 제어문 병렬처리 task MVC Glue 인자 cmd Optimizer 퇴사 Mail echo local 자원 새해 목표 PR Public objects Nan crontab 쿼리 Connection 조인 Producer Mount > processor zip 클라이언트 Console Images PSS OPS ODBC SSL rpc Method 자기개발 JVM 백그라운드 로깅 logging Warning static 동기 Resource Path User DataSet Na jdbc dashboard dom OLAP set SLA print main 개인정보 SVC 배치 복제 sequence nano Workflow None Fedora 암호화 soap package 책추천 Forward source 정규식 정규 표현식 모델링 Collection Orange 크롤링 CDC view 조건문 agile column sprint 컴파일 스프린트 case Sensor Grant 소수 E-mail 가치관 self action port 프로토콜 MIME 이직 tuning Daemon DHCP 오류 집계 Engine 오너 Interpreter Profile 인수 역할 % 성능 & SG Cost 프록시 Role Fold ' r log TIME ping DX Trigger TTL 일상생활 숫자 Stop Location Filter Version Re Query 메모리 세트 파티션 세션 캐시 계정 Date Show Project Drop 쿠키 콜렉션 Master df regex add 서버 문자열 find 라이브러리 테이블 영어회화 tag image 데몬 연동 텍스트 index generator 방화벽 compile 캐스팅 템플릿 try include file 리스트 Process 협업 프로세스 보안 Excel 복구 RDBMS InnoDB Apache 문제 debugging template Library layer vim vi html Application 알고리즘 URL 직장인 건강 BLACK
728x90