data-preprocessing

There are 11 repositories under data-preprocessing topic.

zzw922cn / Automatic_Speech_Recognition
End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow
automatic-speech-recognition tensorflow timit-dataset feature-vector phonemes data-preprocessing rnn audio deep-learning lstm end-to-end cnn rnn-encoder-decoder evaluation paper speech-recognition layer-normalization chinese-speech-recognition
Language:Python 2843
skrub
skrub-data / skrub
Machine learning with dataframes
data data-analysis data-cleaning data-preparation data-preprocessing data-science data-wrangling dataframe dataframes dirty-data machine-learning
Language:Python 1495
data-prep-kit / data-prep-kit
Open source project for data preparation for GenAI applications
data-preparation finetuning llm llmapps data data-prep data-preprocessing data-preprocessing-pipelines datacuration large-language-models large-scale-data-processing python ray spark datarecipes code-quality deduplication malware
Language:HTML 847
Western-OC2-Lab / AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics
Implementation/Tutorial of using Automated Machine Learning (AutoML) methods for static/batch and online/continual learning
automated-machine-learning automl concept-drift data-preprocessing data-stream-processing data-streams deep-learning feature-engineering hyperparameter-tuning intrusion-detection-system iot iot-data-analytics machine-learning model-selection python-examples python-samples
Language:Jupyter Notebook 626
machinelearnjs / machinelearnjs
Machine Learning library for the web and Node.
machine-learning easy-to-use minimalistic web node statistical-learning random-forest svm feature-extraction data-preprocessing probabilistic-models structured-data
Language:TypeScript 542
klib
akanz1 / klib
Easy to use Python library of customized functions for cleaning and analyzing data.
data-analysis data-cleaning data-preprocessing data-science data-visualization feature-selection klib python
Language:Python 521
desbordante-core
Desbordante / desbordante-core
Desbordante is a high-performance data profiler that is capable of discovering many different patterns in data using various algorithms. It also allows to run data cleaning scenarios using these algorithms. Desbordante has a console version and an easy-to-use web application.
data-analytics data-cleaning data-cleansing data-engineering data-exploration data-mining data-profiling data-science data-wrangling data-preprocessing feature-selection feature-engineering feature-extraction spreadsheets tabular-data anomaly-detection data-mining-algorithms exploratory-data-analysis knowledge-discovery correlations
Language:C++ 429
shamspias / customizable-gpt-chatbot
A dynamic, scalable AI chatbot built with Django REST framework, supporting custom training from PDFs, documents, websites, and YouTube videos. Leveraging OpenAI's GPT-3.5, Pinecone, FAISS, and Celery for seamless integration and performance.
artificial-intelligence chatbot data-preprocessing django django-rest-framework gpt-3 machine-learning nlp python conversational-ai voice-chat voice-recognition voice-to-text voice-transcription gpt-voice natural-language-processing langchain langchain-python longchain autogpt
Language:Python 394
msamogh / nonechucks
Deal with bad samples in your dataset dynamically, use Transforms as Filters, and more!
pytorch data-processing data-preprocessing data-pipeline data-cleaning preprocessing machine-learning torch
Language:Python 378
TirendazAcademy / PANDAS-TUTORIAL
Jupyter Notebooks and Data Sets for Pandas Library
python pandas-tutorial pandas pandas-python pandas-dataframe pandas-tricks-for-data-manipulation pandas-library pandas-series pandas-datareader data data-analysis data-preprocessing data-science machine-learning
Language:Jupyter Notebook 231
100-Days-Of-ML-Code
harunurrashid97 / 100-Days-Of-ML-Code
A day to day plan for this challenge. Covers both theoritical and practical aspects
machine-learning python eda vizualization 100daysofmlcode datascience tutorials siraj-raval-challenge machine-learning-algorithms infographics 100-days-of-code implementation regression-algorithms exploratory-data-analysis data-science data-preprocessing decision-tree textsummarization linear-regression article
Language:Jupyter Notebook 227
HasnainRaz / SemSegPipeline
A simpler way of reading and augmenting image segmentation data into TensorFlow
tensorflow deep-learning input-pipeline data-augmentation semantic-segmentation python data-preprocessing augmentation pipeline data-augmentations image-augmentation image-preprocessing masks
Language:Python 143
dali_backend
triton-inference-server / dali_backend
The Triton backend that allows running GPU-accelerated data pre-processing pipelines implemented in DALI's python API.
nvidia-dali dali deep-learning gpu data-preprocessing python fast-data-pipeline image-processing
Language:C++ 138
thepanacealab / SMMT
Social Media Mining Toolkit (SMMT) main repository
annotation twitter-api data-annotation data-acquisition data-preprocessing spacy gathering tweets
Language:Python 137
dansuh17 / segan-pytorch
SEGAN pytorch implementation https://arxiv.org/abs/1703.09452
segan pytorch data-preprocessing segan-pytorch audio speech-enhancement source-separation mir
Language:Python 110
TensorMSA / tensormsa
Deep learning GUI frame work for enterprise
data-preprocessing deep-learning docker docker-compose gpu machine-learning microservices-architecture tensorflow
Language:Python 108
Mohan-Zhang-u / mzutils
deep-learning machine-learning machinelearning question-answering tensorflow tensorflow2 torch data-preprocessing data-visualization natural-language-processing reinforcement-learning toolkit readthedocs
Language:Python 104
wangxb96 / Awesome-EdgeAI
Resources of our survey paper "Optimizing Edge AI: A Comprehensive Survey on Data, Model, and System Strategies"
data-preprocessing edge-ai edge-computing efficient-algorithm machine-learning model-acceleration model-compression model-inference tiny-ml awesome-list deep-learning model-deployment model-design
98
asavinov / prosto
Prosto is a data processing toolkit radically changing how data is processed by heavily relying on functions and operations with functions - an alternative to map-reduce and join-groupby
workflow data-processing map-reduce spark pandas python feature-engineering data-science data-wrangling data-preprocessing data-preparation business-intelligence olap
Language:Python 93
HypoX64 / candock
A time series signal analysis and classification framework
eeg deep-learning classification series-signal-analysis data-preprocessing data-augmentation
Language:Python 86
nursnaaz / 25DaysInMachineLearning
I will update this repository to learn Machine learning with python with statistics content and materials
python machine-learning machine-learning-algorithms machinelearning machinelearning-python statistics data-science modelling python3 data-preprocessing practise descriptive-statistics bias linear-regression decision-tree numpy covariance logistic-regression random-forest bagging
Language:Jupyter Notebook 58
hxycorn / Twitter-Sentiment-Analysis-about-ChatGPT
A quantitative study on over 1.25 million tweets about ChatGPT, employed data scrapping, data cleaning, EDA, topic modeling, and sentiment analysis.
data-analysis data-preprocessing data-visualization roberta-model sentiment-analysis topic-modeling twitter-scraping vader
Language:Jupyter Notebook 55
LaureBerti / Learn2Clean
Learn2Clean: Optimizing the Sequence of Tasks for Data Preparation and Cleaning
automated data-cleaning data-cleaning-pipeline data-curation data-preprocessing reinforcement-learning
Language:Python 52
danielhanchen / sciblox
sciblox - Easier Data Science and Machine Learning
data-science data-visualization data-mining data-analysis imputation machine-learning data-preprocessing python sklearn boosting
Language:HTML 50
hegongshan / Storage-for-AI-Paper
Accelerating AI Training and Inference from Storage Perspective (Must-read Papers on Storage for AI)
data-storage deep-learning mlsys storage-system storage-for-ai pytorch tensorflow checkpoint data-preprocessing data-loading data-preparation dataloader model-inference model-storage model-training
50
ojasphansekar / Zillow-Home-Value-Prediction
XGBoost, LightGBM, LSTM, Linear Regression, Exploratory Data Analysis
python-3 machine-learning xgboost-algorithm lightgbm-models lstm-neural-networks exploratory-data-analysis data-preprocessing data-cleansing
Language:Jupyter Notebook 47
soumyadip007 / Data-Science-Using-Python-University-Course-Module
“Data science” is just about as broad of a term as they come. It may be easiest to describe what it is by listing its more concrete components: Data exploration & analysis. Included here: Pandas; NumPy; SciPy; a helping hand from Python's Standard Library.
data-preparation data-preprocessing data-processing data-science data-visualization jupyter-notebook knn numpy panda plotting python
Language:Jupyter Notebook 46
CHB-MIT-data-preprocessing-and-prediction
tothemoon10080 / CHB-MIT-data-preprocessing-and-prediction
This project focuses on data preprocessing and epilepsy seizure prediction using the CHB-MIT EEG dataset. It includes steps like data cleansing, feature extraction, and handling imbalanced datasets, aimed at improving the accuracy of seizure prediction.
data-preprocessing eeg-analysis feature-extraction healthcare-analytics machine-learning python signal-processing chb-mit-dataset epilepsy-prediction
Language:Python 46
Elysian01 / Data-Purifier
A Python library for Automated Exploratory Data Analysis, Automated Data Cleaning, and Automated Data Preprocessing For Machine Learning and Natural Language Processing Applications in Python.
data-analysis data-cleaning data-cleaning-pipeline data-preprocessing data-science data-visualization datapurifier eda exploratory-data-analysis jupyter python-lib python-library python3
Language:Jupyter Notebook 45
MahtaFetrat / ManaTTS-Persian-Speech-Dataset
ManaTTS is the largest open Persian speech dataset with 114+ hours of transcribed audio. Includes data collection pipeline and tools. Suitable for Persian text-to-speech models.
data-collection data-preprocessing dataset-preparation forced-alignment mana-tts manatts persian persian-speech speech-corpus speech-data-collection speech-dataset speech-processing speech-synthesis text-to-speech text-to-speech-dataset tts tts-dataset
Language:Jupyter Notebook 44
Rpita623 / Movie-Recommendation-System-using-R_Project
Movie Recommendation System: Project using R and Machine learning
data-analysis data-preprocessing data-science data-visualization datascience machine-learning machine-learning-algorithms machinelearning movie-recommendation movie-recommendation-system movielens-dataset r recommendation recommendation-engine recommendation-system recommendations recommender-system recommender-systems rprogramming rstudio
Language:R 43
Kukuster / SumStatsRehab
GWAS summary statistics files QC tool
bioinformatics bioinformatics-tool compbio computational-biology data-prep data-preparation data-preprocessing gwas gwas-pipeline gwas-summary-statistics summary-statistics sumstats
Language:Python 42
teamreboott / data-modori
data data-analysis data-preprocessing data-visualization llm lmops
Language:Python 40
repetere / modelscript
REPO MOVED TO https://github.com/repetere/jsonstack-data - Data Science and Machine learning in JavaScript
data-mining data-preprocessing data-science javascript machine-learning
Language:JavaScript 39
Pooja-Bhojwani / linked-eed
Aim is to come up with a job recommender system, which takes the skills from LinkedIn and jobs from Indeed and throws the best jobs available for you according to your skills.
data-mining data-preprocessing python text-mining social-network-backend job-recommendation skill-algorithm jaccard-similarity
Language:Python 38
mattkearns / automated-data-preprocessing
A command-line utility program for automating the trivial, frequently occurring data preparation tasks: missing value interpolation, outlier removal, and encoding categorical variables.
data-preprocessing data-processing automation python pandas argparse data-science data-engineering machine-learning interpolation imputation outlier-detection outlier-removal one-hot-encode command-line-tool
Language:Python 36

data-preprocessing

zzw922cn / Automatic_Speech_Recognition

skrub-data / skrub

data-prep-kit / data-prep-kit

Western-OC2-Lab / AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics

machinelearnjs / machinelearnjs

akanz1 / klib

Desbordante / desbordante-core

shamspias / customizable-gpt-chatbot

msamogh / nonechucks

TirendazAcademy / PANDAS-TUTORIAL

harunurrashid97 / 100-Days-Of-ML-Code

HasnainRaz / SemSegPipeline

triton-inference-server / dali_backend

thepanacealab / SMMT

dansuh17 / segan-pytorch

TensorMSA / tensormsa

Mohan-Zhang-u / mzutils

wangxb96 / Awesome-EdgeAI

asavinov / prosto

HypoX64 / candock

nursnaaz / 25DaysInMachineLearning

hxycorn / Twitter-Sentiment-Analysis-about-ChatGPT

LaureBerti / Learn2Clean

danielhanchen / sciblox

hegongshan / Storage-for-AI-Paper

ojasphansekar / Zillow-Home-Value-Prediction

soumyadip007 / Data-Science-Using-Python-University-Course-Module

tothemoon10080 / CHB-MIT-data-preprocessing-and-prediction

Elysian01 / Data-Purifier

MahtaFetrat / ManaTTS-Persian-Speech-Dataset

Rpita623 / Movie-Recommendation-System-using-R_Project

Kukuster / SumStatsRehab

teamreboott / data-modori

repetere / modelscript

Pooja-Bhojwani / linked-eed

mattkearns / automated-data-preprocessing