[T-VCG 2022] StrategyAtlas: Strategy Analysis for Machine Learning Interpretability

Question

[T-VCG 2022] StrategyAtlas: Strategy Analysis for Machine Learning Interpretability

uhhyunjoo opened this issue 2 years ago · comments

	link
paper	StrategyAtlas: Strategy Analysis for Machine Learning Interpretability

Hyunjoo Lee · Answer 1 · Mon Nov 28 2022 14:12:41 GMT+0800 (China Standard Time)

리스크가 높은 환경에서 하는 비즈니스들은 ML 접근 법을 꺼려왔다고 합니다.
왜냐면 그들이 비즈니스를 위해 풀려는 문제는 복잡하고, 해석하기 어렵다는 특성이 있기 때문.

기존 솔루션도 어느정도 설명을 제공하지만, 모델을 전체적으로 이해하기에는 충분하지 X

본 논문 : Stragey cluster (모델에 의해 명확하게 처리되는 데이터 인스턴스 그룹)이 복잡한 모델의 global behavior (전역 동작)을 이해하는 데 사용될 수 있다고 합니다.

이 클러스터에 대해 효과적인 탐색과 이해를 돕기 위해 만ㄷ느 시스템이 STRATEATLAS 인데,
이건 모델의 전략을 분석하고 설명하도록 설계된 시스템입니다.

그리고, reference model 을 더 단순화 시키고 개선시키기 위해, 전략들을 활용할 수 있는 방법도 지원합니다.

예시
대형 보험 회사로부터 데이터 받음 -> 자동 보험 수락 하는 것에서 활용하는 사례
전문가들 -> 이걸로 어떻게 모델을 이해하고, 인사이트를 얻어서 production model 을 개선하는지 보여줌

Hyunjoo Lee · Answer 2 · Mon Nov 28 2022 14:15:54 GMT+0800 (China Standard Time)

Fig. 1.

데이터로부터 StrategyMap 를 뽑습니다.
이로부터, 모델의 전략을 클러스터로 보여줌으로서, 모델을 이해할 수 있을 겁니다.

StrategyAtals 모델은 총 3가지 메소드를 통해, 이 stragymap 으로부터 모델의 전략을 발견해서 이해합니다.

첫번째로, Gradient heap map 을 이용해서 개별 feature 에 대해
두번째로, interactive density plot 을 이용해서 전체 피쳐들에 대해
세번째로 decision tree 로 결과적으로 strategies 에 대해 보여줍니다.

Hyunjoo Lee · Answer 3 · Mon Nov 28 2022 14:33:19 GMT+0800 (China Standard Time)

StrategyMap 이 가장 중요합니다. projection-기반 시각화 접근 방식을 사용해서 clutster 를 모델 strategy 에 상응하게 만들었다고 하는데요.

이걸 위해서

Feature contribution 테크닉
-> 각 feature 가 하나의 prediction 에 대해 얼만큼 나타내는지에 따른 가중치를 나타내는 vector를 만듭니다. 해당 논문에서는 LIME 이라는 테크닉을 썼고, 이건 feature 값의 작은 변화가 prediction 에 크게 영향을 주면, contribution 이 크다고 책정해서 weight 를 크게 한다고 합ㄴ디ㅏ. 그리고 코스트가 비교적 적습니다.

Projection down
이 feature contribution vector 들이 2차원으로 프로젝션 됩니다.
이 논문에서는 UMAP 이란 방식을 사용했고, 데이터의 전체적인 구조를 잘 보존하면서 속도가 빠르다는 장점이 있다고 합ㄴ디ㅏ.
초기 프로토타입은 tSNE 도 사용했다고 해요.

중요!

DataMap : UMAP projection of the dataset into two dimension

StrategyMAP : UMAP projection of feature contribution vectors

그래서 feature contribution 벡터를 내린거라서, feature contribution value 가 비슷한 것끼리 뭉치게 돼서, 모델의 전략이 클러스터로 나타내게 된겁니다.

Fig 3.1. 에 있는 데이터를 보면. 모델이 고추의 익은 정도 를 예측한다면, color feature 가 사용될 것이고. StrategyMap 에서는 2개의 클러스터로 될 겁니다.
이 클러스터는 각각 모델의 전략 2가지를 나타냅니다. 하나는 빨간색 데이터들을, 하나는 초록색 데이터들을 예측하는 전략이죠. 이모지로 나타낼수 있는가를 예측한다면, 2개의 직선이 그어져야하니까, 하나의 threshold 로만은 분류할 수 없구요.
그래서 strategyMap 에서는 4개의 클러스터를 만듭니다.
모든 클러스터들을 different feature contribution value 를 가집니다.
비슷한 컨트리뷰션 value 를 갖는 것들 끼리 뭉칩니다...
모델에 의해 비슷한 treatment 를 받는다...

이떄 strategymap 에 있는 클러스터랑 datamap 에 있는 클러스터는 다른 거라고 합니다.

무엇이 이 클러스터를 결정하는 지가 challenging 하다.

어떤 feature 가 클러스터 분류를 하는데 사용되었는지
데이터에서 어떤게 다르게 다뤄졌는지?
이 구분을 나타내기 위한것이 StrategyAtlas

Hyunjoo Lee · Answer 4 · Mon Nov 28 2022 14:52:37 GMT+0800 (China Standard Time)

DataMap : UMAP projection of the dataset into two dimension

StrategyMAP : UMAP projection of feature contribution vectors, 각 클러스터가 모델 전략을 나타냄.

Fig.6. 을 보겠습니다.

우선 좌측에서 데이터셋, 모델, feature contribution 테크닉을 고릅니다.

2는 프로젝션 뷰

2A. 위에는 DataMap
데이터셋을 프로젝션

2B. Strategy Map
feature contribution vectors 를 프로젝션

3 Gradient heap map layer

각 특정 feature 에 대한 values 의 distribution

위 : a specific feature in the data
아래 : a specific feature int the feature contribution projection spaces

Figure 2 에서, data 와 model 관점을 다르게 하기 위해

data heap map : green sequential color map
strategy map heat map : blue and red diversing color map

6.2.A 를 보면, heap map 은