본문 바로가기
반응형

Software/Data Science Introduction10

[데이터사이언스개론] Representing and Mining Text 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님 '데이터사이언스개론' 수업 1. Dealing with Text - 데이터가 항상 feature vector 형태로 제공되지는 않는다. - 우리는 도구에 맞도록 데이터 표현을 설계하거나, 데이터에 맞는 새로운 도구를 만들어야 한다. - 보통은 도구에 맞도록 데이터를 가공한다. 2. Why text is important - 텍스트는 어디에나 존재한다. - 많은 애플리케이션들은 여전히 텍스트 데이터를 만들거나 기록한다. - 의료 기록, 제품 조회, 수리 기록, 소비자 불만 사항 기록 등 - 인터넷은 '뉴미디어'의 본고장이지만, 그것은 대부분 오래된 미디어와 같은 형태이다. - 멀티미디어 데이터는 많은 양의 교통량을 설명할 수 있다. - 그것은 여전히 .. 2021. 6. 10.
[데이터사이언스개론] Evidence and Probabilities 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님 '데이터사이언스개론' 수업 1. Evidence-Based Classification - 지금까지 분류를 위한 여러 방법을 알아보았다. - 이제 분류의 다른 방법을 알아볼 것이다. - Evidence - 실제 일어난 것들. 실제 data 값들. (data instance의 feature values) - data의 각각의 feature vector를 타겟 값에 대한 증거 (evidence)로 생각할 수 있다. - 각 feature에 의해 주어진 증거의 강점을 안다면, 그것들을 확률적으로 결합하여 개체를 분류할 수 있다. - 훈련 데이터로부터 각 증거의 강도를 알 수 있다. 2. (ex) online targeting advertising - 고객들이.. 2021. 6. 9.
[데이터사이언스개론] Visualizing Model Performance 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님 '데이터사이언스개론' 수업 1. Visualizing Model Performance - 모델 성능을 시각화하기 위한 몇몇 유용한 기술들에 대해 다룬다. - 모델 성능을 직관적으로 보여준다. 2. Ranking instead of Classifying - 이전 장에서는 각 경우에 대한 결정을 expected value에 기반하여 어떻게 계산할 지 알아보았다. - 이번에는 다른 전략으로 ranking에 대해 알아볼 것이다. - 각 경우를 분리하여 결정하기보다는, 예측된 점수를 기반으로 사례들의 순위를 매긴 다음 상위 n개의 경우를 택하는 것이다. - 많은 경우, 그저 가장 성능이 좋은 n개의 케이스를 원할 때가 있다. 예를 들어 캠페인을 위한 마케팅 .. 2021. 6. 9.
[데이터사이언스개론] What is a good model? 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님, '데이터사이언스개론' 수업 1. how measure a model? - 데이터 분석을 통해 "얻고싶은 것"이 무엇인지 신중히 고려하는 것이 중요하다. - 모델의 수행 능력을 의미있는 방식으로 측정해야 한다. - 각 문제에 대한 올바른 평가 방식은 무엇일까? - ex) 이동통신사 고객 이탈 문제 (celluar-churn problem) : 정확한 예측의 비율? 이탈한 고객의 비율? 2. Evaluation Classifiers (예측모델 평가) - 알지 못하는 클래스에 대해 이미 갖고 있는 데이터를 바탕으로 예측하는 모델이다. - 이진 예측 모델의 클래스: positive / negative - 이러한 모델이 얼마나 잘 수행되는지 어떻게 평가할 .. 2021. 6. 8.
[데이터사이언스개론] Similarity, Neighbors, Clusters 수업 출처) 숙명여자대학교 소프트웨어학부 박동철 교수님 '데이터사이언스개론' 수업 [Similarity] 1. Similarity (유사도) -> "거리" 개념 : 많은 데이터 사이언스 방법과 솔루션들의 근본이 된다. - ex) 비슷한 것들 검색, 비슷한 것들 그룹화 (클러스터링), 상품 추천, 비슷한 케이스로부터의 추론 - objects 간의 "거리"를 이용해서 유사도 측정 - 각각의 object를 feature vector로 표현 -> 두 벡터간의 유클리드 거리 계산 * Euclidean Distance 유클리드 거리 - 두 점 사이의 직선 거리를 계산하는 보편적인 방법 - d(A, B) = √ {(a₁-b₁)² + (a₂-b₂)² + ... + (aₙ-bₙ)²} [Neighbors] 2. Neare.. 2021. 6. 4.
[데이터사이언스개론] Overfitting and Avoidance 수업 출처) 숙명여자대학교 소프트웨어학부 수업 "데이터사이언스개론", 박동철 교수님 1. Overfitting - 데이터 사이언스에서 가장 중요한 근본 개념 중 하나이다. - 모델을 만들 때 너무 flexible하게 만들면 모델이 특정한 데이터셋(훈련 데이터셋)에 너무 적합해진다. - 모델이 훈련 데이터셋을 넘어선 일반적인 데이터셋에는 잘 적용되지 않는 경우이다. - 모델은 새로운 데이터 개체도 잘 예측해야 한다. 2. 근본적인 부작용 - 더 복잡한 모델을 사용하면 정확도는 높아지겠지만, outfitting의 가능성 또한 높아진다. - 한번에 overfitting을 제거할 방법은 없다. - 가장 좋은 전략은 overfitting을 인지하고, 원칙적인 방법으로 복잡도를 조절하는 것이다. - fitting .. 2021. 4. 22.
반응형