본문 바로가기
728x90

태그

spark Python airflow MySQL pyspark hadoop docker AWS k8s Hive kubernetes linux apache airflow ubuntu mongoDB SQL Oracle 하둡 클러스터 dataframe Container ec2 Git s3 PostgreSQL Hadoop cluster metastore csv memory ssh java spark-submit 하둡 설치 Zookeeper NoSQL emr scala partition core Yarn 파이썬 database Network 멀티 노드 kubectl boto3 쿠버네티스 docker-compose Parquet lxml GitHub RDD executor etl 스파크 schema Push jsp vCore spark UI 로그 데이터 bs4 pycharm AWS EC2 Spark Tuning pandas hql DAGS redis 데이터 수집 BigData 에어플로우 MapReduce centOS Virtual Box json 주키퍼 Branch 클래스 데이터 DBMS flower Class http dns select Service 데이터베이스 함수 카프카 KubernetesExecutor CeleryExecutor EMR Serverless EmailOperator Scala Spark AuroraDB spark.sql.shuffle.partitions spark.conf.set airflow dag airflow 실습 hive on hadoop cluster 완전 분산 모드 Target table Source table etcd fully-distributed 마스터 데이터 centos-7 hive-site.xml vpc peering CTAS 데이터 표준화 Kubelet kubespray Columnar pull request data lake kubeadm 데이터 종류 docker file INSERT INTO SELECT apache spark minikube Tez Jupyter Notebook .jar apache kafka dynamodb ansible 도커 centOS7 Spark on YARN impala ODS git error skew NVL overwrite kafka REST API DAG tuple python3 proxy server subnet 튜플 ifnull 하둡 hdfs 스칼라 RDS vi Editor scheduler vpc Pendulum 메소드 SDK Iterator create COMMIT 아키텍처 자료형 ip주소 실행계획 notepad++ https 상속 Domain dictionary 생성자 deployment data Pull TimeZone object null os operator Shell Script XML 로그 권한 merge PowerShell 모듈 map 변수 CPU while REST HA 컨테이너 명령어 vmware driver list 운영체제 출처 origin Shell If virtualbox db instance nslookup decode error table ajax for return Windows IP javascript 리눅스 function 객체지향 resource 정의 kubernetespodoperator dag_management logs dag parsing fernet key 2.7.1 2.1.3 2.5.3 CMAK Mongodb production EC2 stop all_done all_success Trigger Rule SG설정 NoSQL Booster airflow on k8s 설치 Worker pod Airflow on k8s Task Factory TaskGroup Sharded Cluster Simple Mail Service 기준년월 파티션데이터 PythonOperator pyscopg2 spark 성능 Spark 2.x vs Spark 3.x Dynamically optimizing skew joins Dynamically Swithing Join Strategies Dynamicaaly Coalescing Shuffle Partitions Spark3.x unified memory manager reserved memory execution memory storage memory spark memory 데이터베이스 이관 Cluster vs client Client mode Spark on Hadoop sbt1.3.10 Glue Crawler Slack 전송 on_success_callback on_failure_callback 알림받기 Apahce airflow EmrServerlessStartJobOperator EMR 6.11.0 ETL 파이프라인 Spark Job EmrStepSensor EmrAddStepsOperator EmrCreateJobFlowOperator API 서빙 Spark dataframe spark app mapValues 싱글톤객체 믹스인 컴포지션 싱글톤 객체 스칼라 기본문법 함수형 언어 이직 회고 첫 이직 s3 download s3 upload 로그 관리 사용자 행동데이터 log data Managed Airflow Celery worker Celery Executor 시험 비용 block file system s3n s3a Private Synonym Public Synonym Distinct count Join Type bucketing IG gateway Trainsit Gateway outbound Glue ETL row based column oriented number of Input Batches Columnar format SQL 성능 Control tower IAM Role IAM user GlueCatalog Lakeformation route tables Bastion Server Scan time Physical Plan CREATE EXTERNAL TABLE Glue Catalog 빈로그 INPUT size loop query python 연동 바인딩 변수 bind variable select version() mysql version docker-compose.yaml JIT compile Projection pushdown Predicate pushdown PushedFilter PartitionFilter Standby EBS Primary EBS xml.etree.ElementTree sys 메소드 입력 내장함수 python3.x python2.x .YAML .YML YAML file container IP container 통신 container orchestration AWS SES worker node VPC ENDPOINT 클러스터 용량 클러스터 운영 node components 쿠버네티스 용어 amazon linux2 cluster cost optimization name space container life cycle ./bash_profile /etc/bashrc 턴키형 쿠버네티스 설치형 쿠버네티스 관리형 쿠버네티스 pyspark vs pandas virutal box Database PostgreSQL dunder method special method magic method PySpark 기본개념 문법자유도 1차배열 random.randint show variables 소프트웨어 개발 방법론 Landing Zone Master Data amazingtalker 어메이징토커 쌍 따옴표 홑 따옴표 double quotation single quotation aws mwaa Transit Gateway persist() cache() .class EMRFS StopIteration sequence type __next__ dataframe vs rdd vs dataset spark 자유도 pyspark 문법 파이썬의 특징 vs code studio 변수입력받기 2차배열 dictionary comprehension set comprehension tzinfo multi processing format method covid19 api EC2 자동화 EC2 recipe EC2 image builder EC2 auto terminate EC2 terminate 코로나 감염현황API spark write 코로나감염 API 공공데이터 API cpython 데이터 활용 신청 코로나19 감염현황 new york taxi read & write pip install pyspark if __name__=="__main__": rebase vs merge merge vs rebase airflow-scheduler.service airflow-webserver.service Persistent Volume Claim spark란? spark 개요 spark core mysql-connector-python kafka cluster cores shuffle partitions spark shuffle physical query plan logical query plan Spark query plan RDD vs Dataframe DF to RDD RDD to DF pyyaml Availability Zone memeory spark conf SparkSession.config spark-defaults.conf master node File Storage schedule_interval airflow 개념 core당 스레드 vCPU hive job 던지기 hive on yarn write parquet from_unixtime() current_date() current_timestamp() Datefunction repartition() hdfs ui pyspark ETL hdfs 확인 .py spark submit spark submit spark local install 리눅스 스파크 인터프리터 변경 interpreter change 서비스 데이터 Hadoop ETL hadoop 실습 hive 실습 멱등성 hive on hadoop HQL 실행 Visual C++ Redistributable msvcp100dll spark exception 스파크 클러스터 모드 spark on hadoop cluster 하이브 설치 hadoop 실행 호스트변경 Java환경 설정 spark error .py .ipynb nbconvert apache-airflow airflow cluster 쿠버네티스 아키텍처 AWS SDK image build partition prunning spark partition foreachPartition aws vpc partitionBy Spark Application RLIKE longtype 스냅샷 테이블 비정규화 테이블 이력 테이블 디멘젼 테이블 펙트 테이블 트랜잭션 데이터 객체 저장소 python interpreter pyodbc 메타정보 MSCK greentaxi data start_date execution_date BashOperator 배포판 종류 winutils 마스터데이터관리 pythonic Snap Shot Data sys.stdin.readline() dataframe api docker pull docker push 파이써닉 docker commit docker images dataframe method RDD to DataFrame Ad-Hoc query 기간계 Index사용하여 도큐먼트조회 Index조회 Index생성 SQL처리과정 데이터 크롤링 4.4version mongoimport MongoDB import 프로세스구조 오라클 Database구조 AWS EC2 instance data extraction 데이터 수집 기술 데이터 수집 방법 데이터 수집절차 반정형 데이터 partitions persistent volume bastion host 데이터 표준관리 시스템 데이터 표준화 개념 스파크 설치 spark cluster igw 진입점 pub/sub Connection pools 커넥션 풀 unix_timestamp Data Engineer CentOS-8 TABLE생성 TABLE SPACE map함수 callback함수 Collection Type Binary JSON select_one PyPy3 NAT Gateway 인프라 아키텍처 Infra architecture 데이터 마트 Data Pipeline 대용량 데이터베이스 대용량 DB 대규모 서비스 대규모 웹 서비스 데이터 엔지니어 scrapy .war 코로나api https://goodgid.github.io/What-is-Multi-Thread/ Query Plan ubuntu 20.04 https://aws.amazon.com/ko/devops/what-is-devops/?nc1=f_cc https://www.fun-coding.org/AWS1.html git 오류 데이터엔지니어 find_all f-string datagrip pymongo pipenv **kwargs *args anaconda3 docker build import error 시계열데이터 Tree구조 list comprehension input() tk8 쿠버네티스 클러스터 ndarray ubuntu18.04 데이터 파이프라인 cs 지식 cluster mode python list 데이터 레이크 Storage Level 공공데이터포털 aws s3 upstream 추천 알고리즘 python3.6 Ubuntu 18.04 Control Plane iterable kubectl 명령어 docker swarm docker volume dockerfile docker-compose.yml NCP serde 트레잇 리턴값 바이너리 로그 python2 데이터 엔지니어링 block storage object storage yaml 2021년 DATE_FORMAT() spooling 2024년 시스템 카탈로그 행동데이터 roll back RestAPI regexp_replace 비정형 데이터 경력직 이직 접근제어자 Venv A레코드 MSA typescript 백준 알고리즘 inbound 멤버 변수 빅데이터 처리 데이터 처리 timedelta 2023년 구현체 javascript object notation Mesos argparse 데이터 이관 Temp Table #윈도우 glob Go lang nvl2 DBeaver 정형 데이터 COALESCE() 깃헙 기본 문법 fluentd avro __name__ 하둡설치 Port Forwarding COMPANION git hub 추상 클래스 fully distributed mode 행동 데이터 HAProxy beautifulsoup4 hadoop ecosystem upsert Flume mariadb /etc/profile Numpy 깃허브 스파크 튜닝 flask 공공데이터 aws cli .java 정합성 PyPI virtualenv trait GROUPBY next() CDH 윈도우 명령어 몽고DB psql capped Terminate fully distributed 객체지향 프로그래밍 비대칭키 EDW python2.7 stand alone ssh tunneling Window Function scrapping 빅데이터 쉘 스크립트 sbt IntelliJ singleton object kernal OLTP HBASE isnull Kops 코딩 컨벤션 RabbitMQ 가상화 기술 revoke cassandra synchronous sharding webserver 메모리구조 memcached formatting partitioning BSON 몽고디비 public key 무결성 2022년 활용사례 직장인 자기계발 Guava NGINX Secure Sockets Layer Read&Write 데이터 동기화 CRUD 정보계 RAC aggregation Selector Cheat Sheet 고가용성 Domain name system decompile 개발자 도구 BeautifulSoup Redshift yield Logs 옵티마이저 front end 외부조인 owner 대칭키 dynamic allocation vi 편집기 Nullif 내부조인 Slack spool MySQL 에러 데이터 타입 SYS 비동기 coding convention Utuntu rdate workbench sudo html태그 private key 데이터베이스연동 presto concat .profile 환경 변수 설정 jobs COALESCE Linux 설치 parallelism Constraints 스크럼 mysql connector binlog Hypervisor CouchDB 비용 절감 하이브 액션태그 TSV 텍스트 에디터 BigTable dummy concurrency EIP redhat RESTful indexing MDM config Pipeline parser GROUP BY 포트번호 ROW_NUMBER Elk scrum Programming Language 계층구조 로거 bash 분기문 debian base64 프록시 서버 orc Except elements explain reduce finally jad Selenium rsa threading do while TRUNCATE Dependency .bashrc routing protocol 오버라이딩 개인키 DML DDL SELinux CNAME tls consumer File System regular Expression override 스키마 CERTIFICATE Gateway Clone jquery bind Iam App 3년차 애자일 디컴파일 Info proxy 기본문법 cron transformation 딕셔너리 order by datetime BATCH ASYNCHRONOUS PVC tunneling replica pip Properties 회고 nohup Operation 리눅스 명령어 Athena Comments vpn 인프라 화상영어 constructor 부울린 Compiler Else 연산 매개변수 topic 객체 DM 회고록 들여쓰기 Probe 공개키 sort void 제어문 병렬처리 task MVC Glue 인자 cmd Optimizer Mail echo PR Public objects Nan crontab 쿼리 Connection Pod 조인 Producer Mount > processor zip 클라이언트 Console Images PSS OPS ODBC SSL Method 자기개발 JVM 백그라운드 로깅 logging Warning static 동기 Resource Path User DataSet Na jdbc dashboard dom OLAP set print main 개인정보 배치 복제 sequence nano Workflow None Fedora 암호화 soap package 책추천 Forward source 정규식 정규 표현식 모델링 Collection Orange 크롤링 CDC view 조건문 agile column sprint 컴파일 스프린트 case Grant 소수 E-mail self action port 프로토콜 MIME 이직 tuning Daemon DHCP 오류 집계 Engine 오너 Interpreter Profile 인수 역할 % 성능 & SG Cost 프록시 Role Fold ' log TIME ping DX Trigger TTL 일상생활 숫자 Stop Location Filter Version Re Query 세트 파티션 세션 캐시 PV 계정 Date Show Project Drop 쿠키 콜렉션 Master df regex add 서버 문자열 find 라이브러리 테이블 영어회화 tag image 데몬 연동 텍스트 index generator 방화벽 compile 캐스팅 템플릿 try include file 리스트 Process 협업 프로세스 보안 Excel 복구 RDBMS InnoDB Apache 문제 네트워크 debugging layer vim vi html Application 알고리즘 URL 직장인
728x90