본문 바로가기
반응형

전체 글83

[Inflearn] 아파치 카프카 개요와 토픽 https://www.inflearn.com/course/아파치-카프카-입문/dashboard🪼 카프카란 무엇인가카프카 이전데이터를 전송하는 소스 애플리케이션과 데이터를 받는 타겟 애플리케이션처음에는 단방향 통신시간이 지나면서 소스 애플리케이션과 타겟 애플리케이션이 많아지면서 데이터를 조성하는 라인이 매우 복잡해짐소스 애플리케이션과 타겟 애플리케이션이 많아질수록 데이터 라인도 많아짐 -> 배포와 장애에 대응 어려움데이터를 전송할 때 프로토콜 포맷의 파편화 심해짐 -> 유지보수 매우 어려워짐kafka 탄생kafka: 이러한 복잡함 해결하기 위한 오픈소스 프로그램소스 애플리케이션과 타겟 애플리케이션의 커플링을 약하게 하기 위해 개발됨소스 애플리케이션 -> kafka -> 타겟 애플리케이션소스 애플리케이션에.. 2023. 6. 22.
[BITAmin] 선형 회귀 1. 회귀 분석- 독립변수 x에 대응하는 종속변수 y와 가장 유사한 값을 갖는 함수 f(x)를 찾는 과정→ f(x)를 통해 미래 사건 예측 ^y = f(x) ≈ y - 회귀 분석을 통해 구한 함수 f(x)가 선형 함수일 때 f(x) = 회귀 직선- 선형 회귀 분석 - 특성과 타겟 사이의 관계를 잘 나타내는 선형 회귀 모형을 찾고, 이들의 상관관계는 가중치/계수(m), 편향(b)에 저장됨 => ^y = w * x + b 2. 비용 함수 = 손실 함수- 선형 모델의 예측과 훈련 데이터 사이의 거리를 재는 함수- 비용 함수의 결과값이 작을수록 선형 모델의 예측이 정확함 - 선형 회귀는 선형 모델이라는 가설을 세우는 방식이므로, 실제 데이터(훈련 데이터)와 선형 모델의 예측 사이에 차이 존재- 실제 데.. 2023. 1. 23.
[BITAmin] K-최근접 이웃 알고리즘 1. K-NN- 주변의 가장 가까운 K개의 데이터를 보고 새로운 데이터를 판단하는 알고리즘- N개의 특성을 가진 데이터는 n차원의 공간에 점으로 표현됨- 유사한 특성의 데이터는 거리가 가깝고, 다양한 거리 함수를 통해 데이터 간 거리를 구할 수 있음 - KNN 분류 - 종속변수 Y : 범주형 데이터 -> 어떤 범주에 속하는지, K개 중 과반수 의결에 의해 분류 - KNN 회귀 - 종속변수 Y : 연속형 데이터 -> K개의 최근접 이웃이 가진 평균 2. 최적의 K 값 찾는 방법- 최적의 K값은 데이터에 의존적이며, 현실적으로 만족할만한 수준의 값을 찾음 - Trial & Error → Python 반복문 사용- 매우 작은 K는 overfitting 초래: 데이터의 지역적 특성을 지나치게 반영함- 매우.. 2023. 1. 23.
[BITAmin] 데이터 전처리 1. 데이터 전처리- 특정 분석에 적합하게 데이터를 가공하는 작업 - 완결성: 필수로 기입되어 있어야 하는 데이터는 모두 입력되어야 한다.- 유일성: 동일한 데이터가 불필요하게 중복되어 있으면 안된다.- 통일성: 데이터가 모두 동일한 형식으로 입력되어야 한다. 2. 주의해야 하는 점- 잡음 Noise: 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것. 이상치와 달리 예측하기 어려움- 아티펙트 Digital Artifact: 어떤 기술적인 요인으로 인해 반복적으로 발생하는 왜곡이나 에러- 정밀도 Precision: 동일한 대상을 반복적으로 측정했을 때, 각 결과의 친밀성을 나타내는 것. 측정 결과의 표준편차로 표현 가능- 편향 bias: 측정 장비에 포함된 시스템적인 변동 (ex. 영점 조절.. 2023. 1. 23.
[DACOS] Ch03 이론. 빅데이터 수집 [출처: 실무로 배우는 빅데이터 기술, 김강원 저] 1. 플럼 Flume1) 플럼- 빅데이터를 수집할 때 다양한 수집 요구사항들을 해결하기 위한 기능으로 구성된 소프트웨어- 통신 프로토콜, 메시지 포맷, 발생 주기, 데이터 크기 등 데이터를 수집할 때 고려해야 할 것들을 쉽게 해결할 수 있는 기능과 아키텍처 제공 2) 주요 구성요소- Source : 다양한 원천 시스템의 데이터를 수집하기 위해 Avro, Thrift, JMS, Spool Dir, Kafka 등 컴포넌트 제공 / 수집한 데이터 Channel로 전달- Channel : Source와 Sink 연결 / 데이터를 버퍼링하는 컴포넌트로 메모리, 파일, 데이터베이스를 채널의 저장소로 활용- Sink : 수집한 데이터를 Channel로부터 전달받아 .. 2023. 1. 21.
[JAVA] Day14. 멀티 스레딩 1. 스레드 - 다중 스레딩 : 하나의 프로그램이 동시에 여러 가지 작업을 할 수 있도록 하는 것 - 스레드 : 각각의 작업, 동일한 데이터를 공유함 - 프로세스 : 자신만의 데이터를 가짐 - 프로그램을 보다 빠르게 실행하기 위해 멀티 스레딩 사용 2. 멀티 스레딩의 문제점 - 여러 스레드들이 같은 데이터를 공유하게 되면 '동기화' 문제 발생 3. 스레드 생성과 실행 Thread t = new Thread(); t.start(); 3-1) 스레드 생성: Thread 클래스 상속하는 방법 - Thread 클래스를 상속받은 후에 run() 메소드 재정의 - run 메소드 안에 작업 기술 - Thread 객체 생성하고 start() 호출해서 스레드 시작 class MyThread extends Thread {.. 2023. 1. 18.
반응형