[데이터 전처리] End-to-End Data Mining
전 포스팅에서 데이터 전처리하는 법을 복습하였다. 사이킷런의 와인 데이터를 가지고 end-to-end 실습해보자
1. Load Data
2. Sanity check
3. Feature selection
-
상관계수를 이용하여 feature filtering을 해주었다.
-
상관계수가 0.6보다 큰 특성만 사용한다.
-
-
plot을 그려 데이터를 잘 설명할 수 있는 특성을 선택해보자
-
Transforming data
- 모든 특성을 이용해서 PCA와 LDA를 비교해보자
-
실루엣 스코어로 PCA와 LDA의 성능을 비교할 수 있다.
- LDA의 클래스가 데이터를 더 잘 분류할 수 있었다. 사실 LDA가 라벨이라는 데이터를 가지고 있었기에 당연한 결과이다.
댓글남기기