corpus-builder

There are 3 repositories under corpus-builder topic.

adbar / trafilatura
Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML
web-scraping text-extraction nlp html2text text-mining crawler text-cleaning text-preprocessing article-extractor readability scraping news-crawler tei html-to-markdown corpus-builder corpus-tools rss-feed news-aggregator rag llm
Language:Python 4671
google / corpuscrawler
Crawler for linguistic corpora
corpus-builder corpus-linguistics crawling linguistics minority-language
Language:Python 208
praaline / Praaline
Praaline is an open-source system to manage, annotate, visualise and analyse spoken language corpora
visualisation annotations linguistics corpus corpus-linguistics corpus-tools corpus-builder speech-processing speech-analysis spoken-language-processing
Language:C 30
carlfm01 / librivox-tools
Collector and speech cutter for librivox audiobooks
speech-to-text corpus-tools corpus-builder librivox data-collector
Language:C# 22
uma-pi1 / OPIEC-pipeline
open-information-extraction text-processing corpus-data corpus-tools corpus-linguistics corpus-processing corpus-builder corpus-generator wikipedia wiki information-extraction big-data bigdata natural-language-processing natural-language-understanding nlp nlp-resources nlp-datasets nlp-apis wikipedia-corpus
Language:Java 14
dohliam / ebook-corpus
Ebook Corpus - A parser and extractor for electronic books
corpus corpus-linguistics corpus-builder ebooks epub mobi fb2 ebook-parsing
Language:Ruby 7
AndyTheFactory / article-extraction-dataset
Article title, authors, date and body extraction dataset.
article-extractor corpus corpus-builder corpus-tools dataset datasets html-to-markdown html2text news news-aggregator news-crawler readability scraping scraping-websites text-cleaning text-extraction text-mining text-preprocessing web-scraping
Language:HTML 6
thecsw / katya-dev
Katya or The Liberated Corpus a text corpus that allows you to request and scrape any web resource!
corpus corpus-analysis corpus-builder corpus-generator corpus-linguistics corpus-processing russian russian-literature tagger text-corpus
Language:Go 6
FerreroJeremy / Plagiarized-Corpus-Generator
A corpus builder for evaluation of plagiarism detection tools
corpus-generator corpus-builder plagiarism
Language:PHP 2
jhlopesalves / CorpusAid
Automated text preprocessing pipeline for large corpora. Features customizable filters for diacritics, stop words, punctuation, and regex.
corpus-builder corpus-linguistics corpus-processing corpus-tools data-cleaning data-cleaning-automation natural-language-processing python regex text-preprocessing
Language:Python 1
tubone24 / askfm-qa-crawler
Crawl Ask.fm QA lists and create corpus for ML.
askfm selenium chromedriver crawler corpus-builder
Language:Python 1
writecrow / crow_backend
The canonical resources to build the backend for a corpus/repository management framework for Crow, the Corpus and Repository of Writing
api backend corpus corpus-builder corpus-generator corpus-linguistics natural-language-processing
Language:PHP 1
crow_frontend
writecrow / crow_frontend
The user interface for the Corpus & Repository of Writing, built in Angular
angular corpora corpus corpus-builder corpus-linguistics natural-language-processing
Language:TypeScript 1
adpaczek / chatbot
Chatbot in Polish language, trained on movie subtitles collected using web scraping, based on Transformer architecture.
chatbot corpus-builder nlp polish-nlu transformer web-scraping
Language:Jupyter Notebook 0
CristinaGHolgado / vikitext
Extract text from Vikidia/Wikipedia articles [fr]
corpus-builder corpus readability text-simplification french-nlp vikidia wikipedia-scraper
Language:Python 0
IDS-Mannheim / Wikipedia-Corpus-Builder
Builds Wikipedia corpora in I5 (a TEI-based format)
wikipedia corpus-builder wikipedia-corpus xml tei
Language:Java 0
sorinmarti / fruechtekorb
This is a text corpus management system for the german linguistic department of the university of Basel.
linguistics corpus-linguistics corpus corpus-builder
Language:PHP 0
binayachaudari / Corpus-Development-Software
Corpus Development Software for Machine Translation
machine-translation corpus-builder machine-learning
Language:JavaScript
c0ntradicti0n / CorpusCookApp
App and Scripts working with the corpus-builder CorpusCook, to have a corpus updated with corrected wrong predictions
python3 kivy-application twisted amp nlp-machine-learning corpus-linguistics corpus-builder
Language:Python