본문 바로가기
반응형

ML & DL3

[BITAmin] 선형 회귀 1. 회귀 분석- 독립변수 x에 대응하는 종속변수 y와 가장 유사한 값을 갖는 함수 f(x)를 찾는 과정→ f(x)를 통해 미래 사건 예측 ^y = f(x) ≈ y - 회귀 분석을 통해 구한 함수 f(x)가 선형 함수일 때 f(x) = 회귀 직선- 선형 회귀 분석 - 특성과 타겟 사이의 관계를 잘 나타내는 선형 회귀 모형을 찾고, 이들의 상관관계는 가중치/계수(m), 편향(b)에 저장됨 => ^y = w * x + b 2. 비용 함수 = 손실 함수- 선형 모델의 예측과 훈련 데이터 사이의 거리를 재는 함수- 비용 함수의 결과값이 작을수록 선형 모델의 예측이 정확함 - 선형 회귀는 선형 모델이라는 가설을 세우는 방식이므로, 실제 데이터(훈련 데이터)와 선형 모델의 예측 사이에 차이 존재- 실제 데.. 2023. 1. 23.
[BITAmin] K-최근접 이웃 알고리즘 1. K-NN- 주변의 가장 가까운 K개의 데이터를 보고 새로운 데이터를 판단하는 알고리즘- N개의 특성을 가진 데이터는 n차원의 공간에 점으로 표현됨- 유사한 특성의 데이터는 거리가 가깝고, 다양한 거리 함수를 통해 데이터 간 거리를 구할 수 있음 - KNN 분류 - 종속변수 Y : 범주형 데이터 -> 어떤 범주에 속하는지, K개 중 과반수 의결에 의해 분류 - KNN 회귀 - 종속변수 Y : 연속형 데이터 -> K개의 최근접 이웃이 가진 평균 2. 최적의 K 값 찾는 방법- 최적의 K값은 데이터에 의존적이며, 현실적으로 만족할만한 수준의 값을 찾음 - Trial & Error → Python 반복문 사용- 매우 작은 K는 overfitting 초래: 데이터의 지역적 특성을 지나치게 반영함- 매우.. 2023. 1. 23.
[BITAmin] 데이터 전처리 1. 데이터 전처리- 특정 분석에 적합하게 데이터를 가공하는 작업 - 완결성: 필수로 기입되어 있어야 하는 데이터는 모두 입력되어야 한다.- 유일성: 동일한 데이터가 불필요하게 중복되어 있으면 안된다.- 통일성: 데이터가 모두 동일한 형식으로 입력되어야 한다. 2. 주의해야 하는 점- 잡음 Noise: 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것. 이상치와 달리 예측하기 어려움- 아티펙트 Digital Artifact: 어떤 기술적인 요인으로 인해 반복적으로 발생하는 왜곡이나 에러- 정밀도 Precision: 동일한 대상을 반복적으로 측정했을 때, 각 결과의 친밀성을 나타내는 것. 측정 결과의 표준편차로 표현 가능- 편향 bias: 측정 장비에 포함된 시스템적인 변동 (ex. 영점 조절.. 2023. 1. 23.
반응형