ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[Feature Request] Support for OpenAI ChatCompletion models

kristaller486 opened this issue · comments

  • Поддерживается в оригинальной lm-evaluation-harness.
  • Позволяет тестировать неограниченный пул моделей через инструменты вроде vllm/llama.cpp-server/text-generation-webui/etc.
  • Настройка формата подсказки на стороне сервера.
  • Можно разделить машину для инференса и тестирования.
  • Можно тестировать проприетарные модели с openai-like api (например, mistral-medium).

Связано с #5
на текущий момент, OpenAI ChatCompletion не поддерживают задачи, где нужны логиты. Но в lm-evaluation-harness работают над этим

В ветке https://github.com/ai-forever/MERA/tree/update/new_harness_codebase с новым кодом lm-evaluation-harness (подключен сабмодулем из репозитория где уже внедрен не принятый пока в lm-evaluation-harness код для работы rutie таски) и переделанными тасками в yaml формате завели можете попробовать воспользоваться тем, что запрашивали. Также в порядке проб/экспериментов заведены *_gen таски вместо multiple_choice, чтобы можно было обходиться без логитов для оценки. Собрать такой сабмит, чтобы посмотреть приватным образом скор на сайте MERA, можете с использованием шелл скрипта https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/scripts/run_benchmark_gen.sh по аналогии с инструкцией для обычного случая: https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/MODEL_SCORING.md#running-hf-models