korchevatel-babushkina
Генератор текстов, основанный на марковских цепях
Собирается статистика для начал предложений, для пар слов и для троек слов, сохраняется в json (за это отвечает скрипт dict_generator.py). Для начал предложений статистика хранится как словарь, для пар и троек - как словарь словарей. Например для тройки слов это будет словарь <"первое_слово второе_слово": <"третье_слово": вес>> (каждое слово имеет свой вес, равный количеству упоминаний в текстах).
Текст генерируется скриптом text_generator.py. Делается это так: первое слово предложения - случайное из словаря начал предложений , второе слово - из словаря пар, третье и дальше - из словаря троек. Точка является отдельным словом и завершает предложение. При наборе статистики отдельно учитываются слова с запятой и без - таким образом в тексте появляются запятые. Через каждые n предложений начинается новый абзац.