설명가능한 머신러닝 (IML)

설명가능한 머신러닝 (IML)

2023. 3. 1. 02:34ㆍ데이터 사이언스/모델링 결과 확인

보통 intrinsic(model-specific)한 IML 방법은 그 자체가 예측 및 설명 모두를 위해 직접적으로 사용되는 경우는 드물며, 그 대신 신경망과 같이 복잡성이 높은 머신러닝 모델을 예측을 위해 먼저 사용한 뒤, 여기에 post-hoc(model-agnostic)한 IML 방법을 부가적으로 적용하는 방식이 많이 채택됨. 또, post-hoc한 IML 방법들 중 global한 것보다는 local에 가까운 방법들이 더 많이 보고되었는데, 이는 복잡성이 높은 머신러닝 모델에 대한 효과적인 설명을 위해 국소적으로나마 그럴싸한 설명을 제시할 수 있도록 하는 데 집중한 결과로 볼 수 있음

(참고 : https://www.cognex.com/ko-kr/blogs/deep-learning/research/overview-interpretable-machine-learning-1-methods-obtain-interpretability-machine-learning-models)

ㅇ Partial Dependence Plot (PDP)

- PDP는 관심 대상인 변수와 Target 간에 어떠한 관계가 있는지 플랏으로 나타내어 확인하는 Global 방법

- 예측값들을 평균낸 값을 가지고 플롯을 그림. 그렇기 때문에, PDP는 특정 feature의 평균 영향력을 본 것.

- 다만, 특정 변수의 평균에 대한 영향력을 보기 때문에 모든 변수간의 교호작용을 파악하기 힘듦

- 또한, 변수의 cardinality가 클 때 연산량이 너무 많아진다는 점과 변수 간 상관성이 높을 때, 비정상적인 개체를 생성할 수 있다는 것이 단점

(참고 : https://soohee410.github.io/iml_pdp)

ㅇ Individual Condition Expectation (ICE)

- 평균을 내지 않고 모든 선을 그려버리는 것이 ICE Plot이며, Local 방법

- 모든 선을 그리기 때문에 교호작용 파악 가능하다는 것이 장점

- 그러나, 변수의 cardinality가 클 때 연산량이 너무 많아진다는 점과 변수 간 상관성이 높을 때, 비정상적인 개체를 생성할 수 있다는 것이 단점

- 이 외에, 샘플 수가 많으면 사실 선이 너무 많아지면서 플롯이 지저분해짐. 따라서 샘플 수가 많을 때에는, 모든 샘플에 대한 예측값을 그리기 보다는, 일부만 추출해서 그리는 것이 더 보는 것이 좋을 것

(참고 : https://soohee410.github.io/iml_ice)

ㅇ 이외에도 하위집단 분석(Subpopulation Analysis), What-IF 분석 등을 수행하기도 함

'데이터 사이언스 > 모델링 결과 확인' 카테고리의 다른 글

Confusion_matrix 메소드 정의 (0)	2021.05.08
ROC 커브 메소드 정의 (0)	2021.05.08
여러 지표들의 결과를 한 눈에 정리해주는 메소드 (0)	2021.05.08

KS-STORY

KS-STORY

태그

최근글

댓글

공지사항

아카이브

'데이터 사이언스 > 모델링 결과 확인' 카테고리의 다른 글

관련글

티스토리툴바