aptmess / diploma-paper

Дипломная работа по теме "Решение задач порождения текста и исправления ошибок орфографии с помощью нейросетевых языковых моделей"

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Дипломная работа

Тема icon:

Решение задач порождения текста и исправления ошибок орфографии с помощью нейросетевых языковых моделей.

Installation

Virtual Environment

sudo apt-get install python3-venv
python3 -m venv diploma_project
source diploma_project/bin/activate
pip install -r requirements.txt
python -m ipykernel install --user --name diploma_paper
jupyter notebook --no-browser

Cover instruction:

sudo apt-get update -y
sudo apt-get install -y swig3.0
pip install jamspell

Project Structure

.
|-- 01. Report I (19.02.21)
    |-- 01. Языковые модели
        |-- 01. Языковые модели (13.02.2020)
            | 01. Языковые модели.ipynb:
                - TITLE: Языковые модели. Предсказание следующего слова
                - DONE:
                    - Реализация счётчика N-грамм из текста;
                    - Реализация предсказания следующего слова по предыдущему слову;
                    - Реализация предсказания следующего слова по m предыдущих слов;
                    - Реализация предсказания следующего слова с учётом порядка предшествующих слов путём оценки расстояния до каждого из предшествующих слов;
        |-- theory
            | Языковые модели.pdf
    |-- 02. Базовые идеи Word2Vec
        |-- img
            | word2vec.png
        |-- theory
            | Языковые модели (+word2vec).pdf
        | 02. Базовые идеи Word2Vec.ipynb:
            - TITLE: Базовые идеи модели Word2Vec
            - DONE:
                - Теоретическое объяснение модели Word2Vec;
                - Математическое обоснование и вывод градиентов в модели Word2Vec
        | 02. W2V.ipynb:
            - TITLE: Реализация модели Word2Vec:
            - DONE:
                - Реализация и обучение модели Word2Vec на корпусе слов;
                - Реализация визуализация эмбеддингов слов и похожих слов;
                - Реализация предсказания следующего слова с помощью модели Word2Vec
        | w2v: обученная модель w2v
        | W2V.py: реализация модели Word2Vec
|-- 02. Report II (12.04.21)
    |-- 01. Исправление пробелов
        |-- theory
            | 4.1 Восстановление пробелов I.nb
            | Вероятностные подходы.pdf
        | 04.1. Восстановление пробелов в тексте. Алгоритмы на основе корпуса слов.ipynb:
            - DONE:
                - Реализация алгоритма максимального соответствия
                - Реализация обратного алгоритма максимального соответствия
                - Реализация двунаправленного алгоритма максимального соответствия
                - Реализация алгоритм построения деревая разбиения слова с возможностью выбора подходящего разбиения с наименьшем количеством слов;
        | 04.2. Восстановление пробелов в тексте. Вероятностные модели.ipynb
            - DONE:
                - Реализация алгоритма выбора наиболее вероятной подполследовательности с применением сглаживания Лапласа
                - Реализация алгоритма максимизации вероятности первого встречаемого слова + лучшее разбиение оставшихся букв с применением мемоизации
                - Реализация алгоритма превращения одного слова в другое с помощью динамического программирования
                - Реализация алгоритма выбора наиболее вероятной подпоследовательности с помощью перемножения вероятностей биграмм
        | 04.3. Реализация алгоритмов.ipynb
        | download_text.py
    |-- 02. Исправление опечаток
        |-- 04.2. Исправление опечаток.ipynb
            TITLE: Исправление опечаток - алгоритм Питера Норвига:
            DONE:
                - Реализация алгоритма исправления опечаток Питера Норвига, основанного на расстоянии Левенштейна

|-- 03. conference (17.04.21)
|-- diploma_project -- виртуальное окружение
|--resources -- оформление README.md
|.gitignore
|README.md
requirements.txt

Author

  • icon icon   Aleksandr Shirokov

Icons by Feather

About

Дипломная работа по теме "Решение задач порождения текста и исправления ошибок орфографии с помощью нейросетевых языковых моделей"


Languages

Language:Jupyter Notebook 98.9%Language:Mathematica 0.6%Language:Python 0.2%Language:Shell 0.1%Language:PowerShell 0.1%