parallel-corpora

There are 0 repository under parallel-corpora topic.

bitextor
bitextor / bitextor
Bitextor generates translation memories from multilingual websites
document-aligner apertium dictionaries crawler wget hunalign sentence-segmentation tokenizer bicleaner tmx warc corpus-tools corpus-processing corpus-generator parallel-corpora machine-translation neural-machine-translation statistical-machine-translation bitextor bleualign
Language:Python 295
csebuetnlp / banglanmt
This repository contains the code and data of the paper titled "Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New Datasets for Bengali-English Machine Translation" published in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020), November 16 - November 20, 2020.
bangla-nlp machine-translation parallel-corpus parallel-corpora neural-machine-translation bangla-dataset-machine-translation bangla-machine-translation low-resource-languages emnlp-2020 low-resource-nlp low-resource-machine-translation
Language:Python 150
tsuruoka-lab / BSD
The Business Scene Dialogue corpus
corpus machine-translation japanese english document-aligned annotated-corpora parallel-corpora parallel-corpus
70
Kartikaggarwal98 / Indian_ParallelCorpus
Curated list of publicly available parallel corpus for Indian Languages
corpus indian-languages low-resource-languages low-resource-machine-translation machinetranslation multilingual-translation neural-machine-translation nlp parallel-corpora parallel-corpus
35
timarkh / tsakorpus
Yet another search platform for linguistic corpora.
corpus elasticsearch linguistics flask language-documentation media-aligned-corpora parallel-corpora linguistic-corpora corpus-linguistics corpus-tools
Language:Python 26
korenyoni / opus-api
OPUS (opus.nlpl.eu) Python3 API
python machine-learning opus api language-model parallel-corpus parallel-corpora corporate corpora corpus
Language:Python 18
IESTAC
Giuseppe-Della-Corte / IESTAC
A corpus that can be used to train English-to-Italian End-to-End Speech-to-Text Machine Translation models
machine-translation speech-translation corpus parallel-corpus parallel-corpora end-to-end-machine-learning forced-alignment speech-processing mfcc-features bitext sentence-embeddings sentence-similarity statistical-machine-translation speech-recognition text-processing text-preprocessinig web-scraping named-entity-recognition audio-data sql-database
11
tsuruoka-lab / AMI-Meeting-Parallel-Corpus
AMI Meeting Parallel Corpus
corpus machine-translation english japanese parallel-corpus parallel-corpora document-aligned annotated-corpora
11
rggdmonk / hadal
A simple and eﬀicient tool for mining and aligning sentences with pre-trained models.
alignment nlp nlp-library parallel-corpora parallel-corpus sentence-alignment parallel-sentence-mining machine-translation
Language:Python 6
shashwatup9k / bho-resources
annotated-corpora bhojpuri bhojpuri-textcorpus english-bhojpuri monolingual-corpora parallel-corpora
3
gederajeg / constructional-equivalence
Repository of supplementary materials and RStudio project for the paper on corpus-based approach to measuring constructional equivalence.
construction-grammar constructionist-approach corpus-linguistics english-indonesian-translation open-code open-data open-science open-subtitle parallel-corpora parallel-corpus quantitative-linguistics r-programming r-programming-projects translation-equivalence translation-studies udayana-university universitas-udayana verbal-near-synonyms
Language:TeX 2
czcorpus / ictools
A program for calculating corpora alignments using a pivot language
cmd corpora corpus linguistics manatee-open parallel-corpora translation
Language:Go 1
npedrazzini / parallelbibles
Word-alignment models for Bible translations in 100+ historical and contemporary languages
parallel-corpora word-alignment bible-translations kriging multidimensional-scaling
Language:R 1
Sohyo / Using-Confidential-Data-for-NMT
datasets nlp parallel-corpora
1
gederajeg / rob-steal-parallel-corpora
Repository kode pemrograman R dan data untuk analisis dalam penelitian dengan judul MODEL KAJIAN TERJEMAHAN BERBASIS BANK DATA TERJEMAHAN DIGITAL INGGRIS-INDONESIA DAN IMPLIKASI PEDAGOGISNYA
construction-grammar constructional-equivalence corpus-linguistics english-indonesian-parallel-corpora english-indonesian-translation opensubtitle parallel-corpora rob-steal-synonyms subtitle-corpora udayana-university
Language:R
Nexdata-AI / 1990000-Groups-Chinese-Czech-Parallel-Corpus-Data
1990000-Groups-Chinese-Czech-Parallel-Corpus-Data
language-translation lexical-analysis machine-translation parallel-corpora
techiaith / alinio
Cod hwyluso alinio testunau gyda hunalign a dogfennaeth ar sut i ddefnyddio LFAligner // Code for simplifying aligning texts with hunalign and documentation for LFAligner
alignment parallel-corpora welsh cymraeg machine-translation
Language:Python