본문 바로가기
반응형

Software60

[데이터사이언스개론] Similarity, Neighbors, Clusters 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님 '데이터사이언스개론' 수업 [Similarity] 1. Similarity (유사도) -> "거리" 개념 : 많은 데이터 사이언스 방법과 솔루션들의 근본이 된다. - ex) 비슷한 것들 검색, 비슷한 것들 그룹화 (클러스터링), 상품 추천, 비슷한 케이스로부터의 추론 - objects 간의 "거리"를 이용해서 유사도 측정 - 각각의 object를 feature vector로 표현 -> 두 벡터간의 유클리드 거리 계산 * Euclidean Distance 유클리드 거리 - 두 점 사이의 직선 거리를 계산하는 보편적인 방법 - d(A, B) = √ {(a₁-b₁)² + (a₂-b₂)² + ... + (aₙ-bₙ)²} [Neighbors] 2. Neare.. 2021. 6. 4.
[데이터사이언스개론] Overfitting and Avoidance 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "데이터사이언스개론", 박동철 교수님 1. Overfitting - 데이터 사이언스에서 가장 중요한 근본 개념 중 하나이다. - 모델을 만들 때 너무 flexible하게 만들면 모델이 특정한 데이터셋(훈련 데이터셋)에 너무 적합해진다. - 모델이 훈련 데이터셋을 넘어선 일반적인 데이터셋에는 잘 적용되지 않는 경우이다. - 모델은 새로운 데이터 개체도 잘 예측해야 한다. 2. 근본적인 부작용 - 더 복잡한 모델을 사용하면 정확도는 높아지겠지만, outfitting의 가능성 또한 높아진다. - 한번에 overfitting을 제거할 방법은 없다. - 가장 좋은 전략은 overfitting을 인지하고, 원칙적인 방법으로 복잡도를 조절하는 것이다. - fitting .. 2021. 4. 22.
[데이터사이언스개론] Fitting Model to data 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "데이터사이언스개론", 박동철 교수님 1. Predictive Modeling - 다른 속성들을 통해서 타겟 속성의 값의 모형을 찾는 것이다. - Nonparametric modeling - 모델 모양이 정해져 있지 않은 모델이다 - 모델의 구조는 데이터로부터 결정된다. - (ex) classificaiton 'tree' - 가지의 수, 모양 등은 데이터를 통해서 알 수 있다. - Parametric modeling - 모델이 정해져 있다. - 모델의 구조는 데이터 분석가에 의해 지정된다. - (ex) linear classify - y = ax + b의 모양으로, 모양은 정해져 있으며 데이터로부터 파라미터인 a, b만 찾아낸다. 2. Nonparametri.. 2021. 4. 22.
[데이터사이언스개론] Predictive Modeling 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "데이터사이언스개론", 박동철 교수님 1. Predictive Modeling 예측 모델 - 일반적인 절차 - training data를 가장 잘 표현하는 모델 설정 - 새로운 데이터에 모델 적용하여 결과 예측 - 아마 처음으로 classification을 생각할 것이다. - 새로운 데이터가 어느 클래스에 속할지 training dataset을 기반으로 확인한다. - (ex) 이 고객이 회사를 금방 떠날 것 같은가? → YES / NO 2. Model - 현실을 목적에 맞는 것만 남도록 간략하게 표현한 것이다. - 중요한 것과 중요하지 않은 것을 기반으로 간략화한다. - 부적절한 정보는 날리고 관련이 있는 데이터들만 남긴다. - (ex) 지도, 청사진 2-1.. 2021. 4. 21.
[자료구조] 탐색 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "자료구조", 유석종 교수님 1. 탐색 - 다수의 레코드 집합에서 특정 키 값과 일치하는 레코드를 찾는 작업이다. - 레코드는 객체의 속성에 해당하는 필드들의 집합으로 표현된다. 2. 순차 탐색 - 정렬되지 않은 레코드들에 대해 조건에 맞는 목표 키를 찾을 때까지 순차적으로 비교를 반복하는 작업이다. - 정렬과 같은 요구 조건이 없어서 알고리즘은 단순하지만, 최상의 경우(1)와 최악의 경우(n) 탐색 성능에 큰 편차가 발생할 수 있다. - 레코드 수(n)가 클수록 탐색 시간이 많이 걸린다 - 순차 탐색 알고리즘의 평균 비교 횟수 : (n + 1) / 2 #include int seq_search(int num[], int key, int n); void ma.. 2021. 4. 20.
[자료구조] 연결 리스트 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "자료구조", 유석종 교수님 1. 순서 리스트 - 원소들을 순서에 따라 배열한 리스트이다. - (ex) days of week, months of year, ... - C언어의 경우 같은 자료형으로 이루어져 있다. - Array 배열 - 선언한 뒤 원소의 개수를 바꿀 수 없다. -따라서 크기를 잘 설정하지 않으면 공간이 부족하거나 메모리 낭비가 발생할 수 있다. - 메모리에서 연속적으로 할당되며, 인덱스로 접근한다. - 중간에 원소를 추가하거나 제거하기도 어렵다. - Linked list 연결 리스트 - 메모리에 분산된 장소로 저장되어 있다. - 즉, 노드들이 메모리에 흩어져 있지만, 포인터로 연결되기 때문에 순서는 존재한다. - 크기 조절이 가능하다. - .. 2021. 4. 20.
반응형