본문 바로가기
반응형

Data Engineering5

[Inflearn] 아파치 카프카 개요와 토픽 https://www.inflearn.com/course/아파치-카프카-입문/dashboard🪼 카프카란 무엇인가카프카 이전데이터를 전송하는 소스 애플리케이션과 데이터를 받는 타겟 애플리케이션처음에는 단방향 통신시간이 지나면서 소스 애플리케이션과 타겟 애플리케이션이 많아지면서 데이터를 조성하는 라인이 매우 복잡해짐소스 애플리케이션과 타겟 애플리케이션이 많아질수록 데이터 라인도 많아짐 -> 배포와 장애에 대응 어려움데이터를 전송할 때 프로토콜 포맷의 파편화 심해짐 -> 유지보수 매우 어려워짐kafka 탄생kafka: 이러한 복잡함 해결하기 위한 오픈소스 프로그램소스 애플리케이션과 타겟 애플리케이션의 커플링을 약하게 하기 위해 개발됨소스 애플리케이션 -> kafka -> 타겟 애플리케이션소스 애플리케이션에.. 2023. 6. 22.
[DACOS] Ch03 이론. 빅데이터 수집 [출처: 실무로 배우는 빅데이터 기술, 김강원 저] 1. 플럼 Flume1) 플럼- 빅데이터를 수집할 때 다양한 수집 요구사항들을 해결하기 위한 기능으로 구성된 소프트웨어- 통신 프로토콜, 메시지 포맷, 발생 주기, 데이터 크기 등 데이터를 수집할 때 고려해야 할 것들을 쉽게 해결할 수 있는 기능과 아키텍처 제공 2) 주요 구성요소- Source : 다양한 원천 시스템의 데이터를 수집하기 위해 Avro, Thrift, JMS, Spool Dir, Kafka 등 컴포넌트 제공 / 수집한 데이터 Channel로 전달- Channel : Source와 Sink 연결 / 데이터를 버퍼링하는 컴포넌트로 메모리, 파일, 데이터베이스를 채널의 저장소로 활용- Sink : 수집한 데이터를 Channel로부터 전달받아 .. 2023. 1. 21.
[DACOS] Ch2 실습. 파일럿 프로젝트 환경설정(2) [출처: 실무로 배우는 빅데이터 기술, 김강원 저] 1. 클라우데라 매니저(CM) 설치- CM : 빅데이터 에코시스템을 쉽게 설치하고 관리해주는 빅데이터 시스템 자동화 도구- 빅데이터 소프트웨어에 대한 프로비저닝, 매니지먼트, 모니터링 수행 - 프로비저닝 : 하둡 에코시스템 편리하게 설치, 삭제, 수정 관리 - 매니지먼트 : 설치한 에코시스템의 설정 변경 및 최적화 지원 - 모니터링 : 하드웨어의 리소스 및 설치 컴포넌트의 상태 모니터링 / 대시보드 2. 가상머신 서버 설치- 원래는 명령어를 이용하여 CM을 설치해야 하지만, 현재 CM 정책이 수정되어 책에 나와있는 명령어로 설치가 안됨- 저자님의 깃허브에서 가상머신 2개 이미지 파일을 받을 수 있음https://drive.google.com/fil.. 2023. 1. 10.
[DACOS] Ch2 실습. 파일럿 프로젝트 환경설정(1) [출처: 실무로 배우는 빅데이터 기술, 김강원 저] 1. 설치해야 할 응용프로그램- JAVA (Java SE 8u-)- 이클립스- Oracle Virtual Box- PuTTY (SSH 접속 프로그램)- FileZilla (FTP 접속 프로그램)- Chrome 2. 리눅스 가상머신 환경 구성1) CentOS 설치2) 첫번째 리눅스 가상머신 - Server01- 메모리 2048MB- 가상 하드 드라이브 동적 할당 30~40GB- OS: CentOS 3) 고정 IP, 네트워크 설정vi /etc/sysconfig/network-scripts/ifcfg-eth0# vi: 문서 편집 환경# " i " 를 눌러서 입력모드 -> 수정# " : "를 눌러서 명령모드# 명령모드 진입 후 wq 를 눌러서 저장 후 종료 -.. 2023. 1. 2.
[DACOS] Ch02 이론. 빅데이터 파일럿 아키텍처 [출처: 실무로 배우는 빅데이터 기술, 김강원 저] 1. 요구사항 파악1) 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태를 점검한다.2) 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석한다. 2. 데이터셋 살펴보기1) 스마트카 상태 정보 데이터- 스마트카의 각종 센서로부터 발생하는 차량의 상태 정보 데이터셋- 요구사항 1과 관련, 로그 시뮬레이터를 통해 생성됨 2) 스마트카 운전자 운행 데이터- 스마트카 운전자의 운전 패턴/ 운행 정보가 담긴 데이터셋- 요구사항 2와 관련, 로그 시뮬레이터를 통해 생성됨 3) 스마트카 마스터 데이터- 스마트카 운전자의 프로파일 정보가 담긴 데이터셋- 요구사항 1, 2와 관련된 분석 데이터셋을 만들 때 활용, 이미 만들어진 샘플.. 2022. 12. 28.
반응형