관리 메뉴

jisoleil's coding good thing

AI 모델 해석 평가 1일차 본문

AIVLE/6주차

AI 모델 해석 평가 1일차

jisoleil 2023. 3. 10. 01:02
  • 다중공선성(선형회귀,로지스틱회귀)

선(선형) 성(성질)

:통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제

-> 학습용 데이터와 검증용 데이터로 나누어 회귀분석 성능을 비교하면 과최적화가 발생하였음을 알 수 있다.

-> 독립변수가 서로 의존하게 되면 이렇게 과최적화(over-fitting) 문제가 발생하여 회귀 결과의 안정성을 해칠 가능성이 높아진다. 

 

  • 클래스 불균형(Class Imbalance)

*진짜 당연한 상황이므로 놀라지 말자

->.fit()을 통해 학습

->전체 오차가 가장 적어지는 모델을 결과를 보여줌

즉,이런 상황일때 (target 비율)

1 0
0.2 0.8

1은 못맞추고, 0은 잘 맞춘다. 

둘 다 잘 맞추기 위해서 sampling이 필요

  1 0
원래 비율 20 80
down sampling 20 20
up sampling 80(복원추출) 80
smote 80(생성) 80

smote: 선형보간법으로 sample 추출

아무거나 골라도 상관 X -> 샘플링 하기위해 골랐을 때, 셋 다 성능에 별 차이 없음

코드

from imblearn.over_sampling import SMOTE
smote = SMOTE()
x_train_s, y_train_s = smote.fit_resample(x_train, y_train)

 

  • 변수 중요도
  •  tree 모델 일때, 변수 중요도 제공(불군도 기반 FI)

Decision Tree

-Mean Decrease Impurity(MDI)

:Tree 전체에 대해서, feature 별로 Information Gain(지니 불순도가 감소하는 정도)의 (가중)평균을 계산

 

Random Forest

-Mean Decrease GINI

:개별 트리의 MDI로부터, feature 별 Importance 평균 계산

 

XGB

-weight: plot_importance에서의 기본값

-gain: model.feature_importances_의 기본값

-cover: feature가 split 할 때 샘플 수의 평균

 

  • 그외 PFI(Permutation Feature Importance)

:feature 하나의 데이터를 무작위로 섞을 때, model의 score가 얼마나 감소되는 지로 계산

but , 만약 다중 공산성의 있는 변수가 존재 할 때, 특정 변수 하나가 섞이면 관련된 변수는 그대로 있으므로 score가 별로 줄어들지 않을 수 있음.

*score가 오히려 -라면 그냥 빼자.. 없는 게 낫다,

시각화 할때 boxplot으로!

 

 

머신러닝, 딥러닝 모델을 비즈니스 관점으로 해석하고 평가하는 수업이였다 

2일차까지 진행할 예정으로 보인다.

모델을 학습시키고 결과만 봤던 사람으로서,

결과를 해석하는 것이 왜 중요한지 몰랐지만 현업에 뛰고 계셨던 강사님이 모델 해석에 대한 중요성을 알려주셨다. 

모델을 만드는 것도, 해석하는 것도 중요하구나라는 것을 알 수 있었다!

더 힘내보자!

 

금요일 까지 달려보자 금요일에 더 글로리 봐야하니깐ㅋ

'AIVLE > 6주차' 카테고리의 다른 글

AI 모델 해석 평가 2일차  (2) 2023.03.13
Comments