인공지능(AI) & 데이터 분석

💡 Feature Selection Feature 선별을 통해 차원을 줄이고 노이즈 제거 효과 성능 향상 학습 속도 up 예측 성능 up 결과에 대한 간결성과 이해도 up 선별한 feature 자체가 의미 있는 경우도 있음 Ex) 특정 질병의 병변을 유도하는 Gene data에 대한 feature selection Supervised feature selection Filters method : feature 개별 영향력만을 고려해 선별 ex) information gain, Chi-square 좋은 feature를 선택하는 용도 보다는 않좋은 feature를 1차 제거하는 용도로 사용 Embeded method : Feature 평가 + 모델 구축이 통합되어 있음 주로 feature 개별에 대한 영향력..
💡 좋은 모델 개발은 좋은 데이터에서 비롯된다. 아무리 좋은 알고리즘을 사용하고 갖은 노력을 들여도 데이터가 쓰레기면 결코 좋은 성능은 기대하기 힘들다. Imputation 결측치(NA) 값은 머신러닝 모델 성능에 영향을 줌 70% 이상의 결측치가 있는 행과 열은 지워주는 것도 좋다 Numerical Imputation (수치형 데이터) - 결측치를 0 이나 중앙값으로 대체 Categorical Imputation (범주형 데이터) - 가장 많이 발생한 값으로 대체 - 아예 새로운 범주로 대체 Random sample Imputation -데이터셋에서 임의로 뽑은 값으로 대체 End of Distribution Imputation -mean(평균) + 3*std(분산) 으로 대체 - 결측치를 outlie..
올해 랩실에 들어온 황반변성 이미지 데이터가 진단 모델에 있어 대강 어느정도의 성능을 나타내는지 측정한 결과 기본 acc 90% 이상 나왔으나 병변 데이터가 너무 적은 관계로 오버피팅 문제가 발생, 딱히 유효한 모델이 아니라고 판단했다. 따라서 병이 있는 데이터를 늘리는 작업을 해야 하는데 환자들을 찾아다니면서 안저 사진을 찍을 수는 없는 노릇이므로 데이터 증강 (Data Augmentation) 기법을 사용한다. 💡데이터 Augmentation 한정된 데이터를 적절한 작업을 통해 늘리는 것 이미지를 약간 돌리거나, RGB 농도를 조절하는 등의 의도적인 노이즈를 줘 새로운 데이터를 만드는 방식 인간의 눈에는 별 차이 없어 보이지만 컴퓨터는 이런 노이즈가 섞이면 완전히 새로운 이미지로 판단 왼쪽 이미지가 ..
인공신경망 학습 입력값과 해당 노드의 가중치를 곱한 후 모두 합산 합산한 결과를 가중합(v) 이라고 함 가중합을 0~1 사이의 값으로 바꿔주기 위해서 활성 함수를 사용 예측값과 실제 정답의 오차를 이용해 가중치를 조정하는 과정을 반복 💡 Activation Function 가중합 v 를 0~1 사이의 값으로 변환 여러 함수가 사용될 수 있음 1) sigmoid 함수 자신의 노드로 들어오는 신호의 가중합만 고려 보통 출력이 이진수(0,1)일 때 import numpy as np def SIGMOID(x): return 1/(1 + np.exp(-x)) 2) softmax 함수 출력 노드가 여러 개 일 때 자신의 노드 뿐 아니라 다른 노드로 들어오는 신호의 가중합도 고려 출력 노드가 여러 개 일 때 용이 i..
gangmini
'인공지능(AI) & 데이터 분석' 카테고리의 글 목록