LISA-ITMO / Text2SQL

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Text2SQL

Датасет

Датасет для задачи text2sql, а также код для дообучения LLM. Объем датасета - 757 записей. Запросы относятся к 4 доменам (различным базам данных): автобаза, библиотека, выставка собак, компьютерная игра Террария, referencing LearnSQL: https://github.com/TonikX/SQLlearn_training_databases/tree/master.

Столбцы датасета: '№п.п' (номер запроса), 'Текст запроса' (запрос на русском языке), 'Ответ' (запрос на языке SQL), 'Контекст' (структура базы данных), 'Тема' (1-15), 'Сложность' (1-5), '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', где числа означают отношение запроса к какой-либо теме. Как итоговая тема выбирается максимальная из отмеченных. Темы:

  1. Простой оператор SELECT
  2. Использование предикатов (сравнения). Упорядочение данных.
  3. Запросы с использованием нескольких таблиц
  4. Использование предикатов OR, AND, NOT
  5. Использование предикатов BETWEEN, LIKE
  6. Агрегатные функции
  7. Группирующие запросы
  8. Группирующие запросы с условием
  9. Подзапросы
  10. Предикаты IN, SOME (ANY), ALL
  11. Использование соединения INNER JOIN
  12. Использование соединений LEFT JOIN и RIGHT JOIN
  13. Использование объединения запросов UNION
  14. Использование предиката EXISTS
  15. Использование операторов IF и CASE

Модель

За основу была взята модель: https://huggingface.co/ai-forever/FRED-T5-large

Количество параметров: 820М

Количество скрытых слоёв: 24

Модель дообучена с помощью Trainer API

Дообученную модель можно найти на Hugging Face: https://huggingface.co/yuraz28/FRED-T5-know_sql-test.

Участники:

  1. Говоров Антон Игоревич - автор идеи и создатель ресурса LearnSQL
  2. Никифорова Анна - составляла и валидировала запросы, вошедшие в датасет
  3. Зарецкий Юрий - занимался дообучением языковой модели

About


Languages

Language:Jupyter Notebook 100.0%