[Feature Request] Support for OpenAI ChatCompletion models

Question

[Feature Request] Support for OpenAI ChatCompletion models

kristaller486 opened this issue 8 months ago · comments

Поддерживается в оригинальной lm-evaluation-harness.
Позволяет тестировать неограниченный пул моделей через инструменты вроде vllm/llama.cpp-server/text-generation-webui/etc.
Настройка формата подсказки на стороне сервера.
Можно разделить машину для инференса и тестирования.
Можно тестировать проприетарные модели с openai-like api (например, mistral-medium).

LSinev · Answer 1 · Tue Jan 30 2024 15:35:23 GMT+0800 (China Standard Time)

Связано с #5
на текущий момент, OpenAI ChatCompletion не поддерживают задачи, где нужны логиты. Но в lm-evaluation-harness работают над этим

LSinev · Answer 2 · Fri Jun 07 2024 19:56:48 GMT+0800 (China Standard Time)

В ветке https://github.com/ai-forever/MERA/tree/update/new_harness_codebase с новым кодом lm-evaluation-harness (подключен сабмодулем из репозитория где уже внедрен не принятый пока в lm-evaluation-harness код для работы rutie таски) и переделанными тасками в yaml формате завели можете попробовать воспользоваться тем, что запрашивали. Также в порядке проб/экспериментов заведены *_gen таски вместо multiple_choice, чтобы можно было обходиться без логитов для оценки. Собрать такой сабмит, чтобы посмотреть приватным образом скор на сайте MERA, можете с использованием шелл скрипта https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/scripts/run_benchmark_gen.sh по аналогии с инструкцией для обычного случая: https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/MODEL_SCORING.md#running-hf-models