johannabi / LinguDV

BA Informationsverarbeitung: Linguistische Datenverarbeitung

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

LinguDV

BA Informationsverarbeitung: Linguistische Datenverarbeitung

About

Dieses Repository enthält ein Java-Programm mit Text Mining-Methoden zur Vorverarbeitung und Klassifikation von Wikipedia-Artikeln.

Installation

Die Wikipedia-Artikel müssen zunächst gecrawlt werden ( -> src/main/java/applications/CrawlArticles.java)

Die gecrawlten Wikipedia-Artikel werden entsprechend als .txt-Dateien gespeichert. Für die weitere Verarbeitung müssen die input-Pfade in den entsprechenden Applikationen (im package src/main/java/applications) angepasst werden

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt:

Lemmatizer (Mate Tools): -> src/main/resources/MateTools

Sentence Detector (OpenNLP): -> src/main/resources/OpenNLP

Tokenizer (OpenNLP): -> src/main/resources/OpenNLP

Stopword Filter: -> src/main/resources

About

BA Informationsverarbeitung: Linguistische Datenverarbeitung

License:MIT License


Languages

Language:Java 100.0%