valentyn1boreiko / llm-threat-model

An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [ICML 2025]

https://arxiv.org/abs/2410.16222

Repository from Github https://github.comvalentyn1boreiko/llm-threat-model

valentyn1boreiko/llm-threat-model Stargazers