[Feature Request] Support for OpenAI ChatCompletion models
kristaller486 opened this issue · comments
- Поддерживается в оригинальной lm-evaluation-harness.
- Позволяет тестировать неограниченный пул моделей через инструменты вроде vllm/llama.cpp-server/text-generation-webui/etc.
- Настройка формата подсказки на стороне сервера.
- Можно разделить машину для инференса и тестирования.
- Можно тестировать проприетарные модели с openai-like api (например, mistral-medium).
Связано с #5
на текущий момент, OpenAI ChatCompletion не поддерживают задачи, где нужны логиты. Но в lm-evaluation-harness работают над этим
В ветке https://github.com/ai-forever/MERA/tree/update/new_harness_codebase с новым кодом lm-evaluation-harness (подключен сабмодулем из репозитория где уже внедрен не принятый пока в lm-evaluation-harness код для работы rutie таски) и переделанными тасками в yaml формате завели можете попробовать воспользоваться тем, что запрашивали. Также в порядке проб/экспериментов заведены *_gen таски вместо multiple_choice, чтобы можно было обходиться без логитов для оценки. Собрать такой сабмит, чтобы посмотреть приватным образом скор на сайте MERA, можете с использованием шелл скрипта https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/scripts/run_benchmark_gen.sh по аналогии с инструкцией для обычного случая: https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/MODEL_SCORING.md#running-hf-models