nobel861017 / CNS_Final

Final Project: Whitebox Attack on Image Classification models

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

CNS_Final

Final Project: Whitebox Attack on Image Classification models

CNS Final Proposal

b05902121 黃冠博, b05902045 宋哲寬, b05902120 曾鈺婷, b05902113 陳宏昇

Problem description

我們要做的事情跟Face Recognition Attack這篇paper很像,給定一個已知內部結構跟演算法的whitebox model,針對這個model的input做一些改動,好讓原本能正確辨識圖片的model因為這些adversarial image出現預測錯誤的情況。不同於上述提到的paper之處在於我們要做的是non-target attack,也就是說只要盡可能讓model predict錯就好,不用讓model硬是把某個類別predict成另一個類別(target attack)。

Threat Model

  • 我們所謂的whitebox已知的資訊如下(也就是攻擊者所知道的資訊):
    • 使用的是哪一種model,比如說:resnet50, dense121, vgg19 ...
    • model 的 data preprocessing 是如何處理的,比如說圖片的normalize
    • model對input做的防禦機制,比如說:Gaussian Filter, Median filter, Bilateral filte
  • 攻擊者的能力範圍:
    • 攻擊者持有一些 model 能正確辨識的input
    • 攻擊者能對input做任意修改並讓model做預測

Related work

How is it done today?

What are the limitations of current practice?

  • 目前這些現成的攻擊套件比較generalize,拿L-infinity去換攻擊的成功率,好讓這些套件能夠對付各種model,但是你會發現這些縣城套件產出的圖片通常L-infinity不小
  • 目前的套件大多只能給他一個proxy model下去做攻擊,也就說他只知道model是什麼,所以常常攻擊成功率不一定很高

Plan

Approach

Plan for Evaluation

  • 攻擊的成功率(accuracy準確率),只要model將某張圖片預測成不同於ground truth label的類別就算攻擊成功
  • 攻擊後的圖片(adversarial image)與原圖的最大差距(L-infinity)
    • adversarial image是原圖加上noise,將adversarial image 跟原圖的每個pixel相減,取最大值,就是 L-infinity norm,也就是下列式子的$|x|{\infty}$ $\mathcal{x} = [x_1,x_2, \cdots, x_n]$ $|x|{\infty} = \max\limits_{i} |x|_{i}$
  • 準確率越高的同時,希望L-infinity越低

Timeline

Deliverables

  • 找出一個改善現有的攻擊套件的方法,使得攻擊能夠針對某個特定dataset有高準確率(90%以上)以及低L-infinity(平均5.00以下)
  • 對於已知的model防禦,想辦法做出讓model防禦失敗的adversial image

About

Final Project: Whitebox Attack on Image Classification models