인공지능(AI) & 데이터 분석

[Feature Engineering] Feature Selection & evaluation

gangmini 2022. 11. 23. 00:43
반응형

💡 Feature Selection

  • Feature 선별을 통해 차원을 줄이고 노이즈 제거 효과
  • 성능 향상
    • 학습 속도 up
    • 예측 성능 up
    • 결과에 대한 간결성과 이해도 up
  • 선별한 feature 자체가 의미 있는 경우도 있음
    • Ex) 특정 질병의 병변을 유도하는 Gene data에 대한 feature selection

 

Supervised feature selection 

  • Filters method : feature 개별 영향력만을 고려해 선별 ex) information gain, Chi-square
    • 좋은 feature를 선택하는 용도 보다는 않좋은 feature를 1차 제거하는 용도로 사용
  • Embeded method : Feature 평가 + 모델 구축이 통합되어 있음 주로
    • feature 개별에 대한 영향력으로 판단, 성능 별로
  • Wrappers method : 개별 영향력뿐만 아니라 다른 feature 간에 interaction 하는 영향력까지 고려해 선별 Ex) Forward/Backward                                                       

Unsupervised feature selection (연관 없는 feature selection(?))

ex) 이미지 모델에서 RGB 정보

 

💡 Feature Evaluation

✔️ 어떤 Feature 가 좋은 Feature 인가?

  • 클래스 간 경계가 clear 할 수도 분류 예측 성능 높음

군필, 미필 분류에 있어 성별은 경계 분명

 

  • 평가 지표에 따른 Feature 중요도 평가 방법 

gain ratio, relisefm cfs 괜춘

 

  • Entropy 
    • 우주는 무질서도를 향해서 간다 (집지어놓고 그냥 내비두면 폐가 된다 by. 교수님)
    • Feature 의 무질서도를 측정하여 feature를 평가
    • 무질서도 높으면 불확실성 높고 정보의 양은 더 많아지지만 경계가 clear 하지 못할 수 있음
    • 확률을 사용해 계산하기 때문에 범주형 데이터로 변환 필수 

확률에 로그 씌워 음수가 나오기 때문에 - 붙임

  • Mutual information
반응형