princeton-nlp / LLMBar

[ICLR 2024] Evaluating Large Language Models at Evaluating Instruction Following

https://arxiv.org/abs/2310.07641

princeton-nlp/LLMBar Issues

复现对不齐问题
Closed 2 months ago1
Scripts to generate adversarial data
Closed 6 months ago5