최대 1 분 소요

전 포스팅에서 데이터 전처리하는 법을 복습하였다. 사이킷런의 와인 데이터를 가지고 end-to-end 실습해보자

1. Load Data

image

2. Sanity check

image

3. Feature selection

  • 상관계수를 이용하여 feature filtering을 해주었다.

    image

    • 상관계수가 0.6보다 큰 특성만 사용한다.

      image

  • plot을 그려 데이터를 잘 설명할 수 있는 특성을 선택해보자

    image

  • Transforming data

    • 모든 특성을 이용해서 PCA와 LDA를 비교해보자

    image

    image

    • 실루엣 스코어로 PCA와 LDA의 성능을 비교할 수 있다.

      image

      • LDA의 클래스가 데이터를 더 잘 분류할 수 있었다. 사실 LDA가 라벨이라는 데이터를 가지고 있었기에 당연한 결과이다.

댓글남기기