data-testing

There are 1 repository under data-testing topic.

soda-core
sodadata / soda-core
:zap: Data quality testing for the modern data stack (SQL, Spark, and Pandas) https://www.soda.io
python data-engineering data-governance data-monitoring data-observability data-profiling data-quality data-quality-checks data-quality-monitoring data-reliability data-testing data-unit-tests data-validation dataquality datatesting dbt pipeline-testing snowflake data-quality-testing data-contracts
Language:Python 2222
re-data / re-data
re_data - fix data issues before your users & CEO would discover them 😊
data-monitoring data-analysis data-quality data-quality-monitoring open-source-tooling data-observability dataquality data-testing data-quality-checks dbt dbt-packages data-reliability
Language:HTML 1571
piperider
InfuseAI / piperider
Code review for data in dbt
data-pipeline data-profiling data-quality data-science data-exploration eda exploratory-data-analysis data-testing python data-observability data-profiler data-reliability data-visualization dbt dbt-metrics code-review reporting pull-requests continuous-integration
Language:Python 492
pointblank
posit-dev / pointblank
Data validation toolkit for assessing and monitoring data quality.
data-quality data-testing data-validation easy-to-understand tabular-data
Language:Python 296
LukaszLapaj / software-testing-resource-pack
Various files useful for manual testing and test automation etc.
quality-assurance software-testing software-quality resource-pack testing testing-tools ui-tests test-data resources front-end-testing manual-testing bootstrapping backend-testing data-testing test-automation e2e-testing api-testing e2e-tests
201
astronomer / airflow-provider-great-expectations
Great Expectations Airflow operator
data-science airflow-operators data-quality data-testing airflow airflow-providers
Language:Python 169
re-data / dbt-re-data
re_data - fix data issues before your users & CEO would discover them 😊
data-monitoring data-observability data-quality data-testing dbt dbt-packages sql
Language:Python 101
akmalsoliev / Validoopsie
A simple and easy to use Data Validation library for Python.
python data-validation data-engineering data-contracts data-testing
Language:Python 79
data-caterer
data-catering / data-caterer
Test data management tool for any data source, batch or real-time. Generate, validate and clean up data all in one tool.
data-generation data-testing data-validation testing-automation data-quality test-data-generator test-data-management automated-test-generation data-contracts synthetic-data data-cleanup
Language:Scala 71
dataops-testgen
DataKitchen / dataops-testgen
DataOps Data Quality TestGen is part of DataKitchen's Open Source Data Observability. DataOps TestGen delivers simple, fast data quality test generation and execution by data profiling, new dataset hygiene review, AI generation of data quality validation tests, ongoing testing of data refreshes, & continuous anomaly monitoring
data data-engineering data-observability data-quality data-science data-testing datachecker dataprofiling dataquality datavalidation self-hosted dataops mssql postgresql python redshift snowflake
Language:Python 65
sodadata / soda-spark
Soda Spark is a PySpark library that helps you with testing your data in Spark Dataframes
spark pyspark data-engineering data-quality data-observability data-testing soda-sql python
Language:Python 64
shridhar1504 / Sales-Forecasting-Datascience-Project
Develop a data science project using historical sales data to build a regression model that accurately predicts future sales. Preprocess the dataset, conduct exploratory analysis, select relevant features, and employ regression algorithms for model development. Evaluate model performance, optimize hyperparameters, and provide actionable insights.
data-analytics data-cleaning data-science data-testing data-visualization forecasting-models machin model-evaluation model-fitting prediction predictive-modeling python3 regression-algorithms sklearn-library supervised-learning salesforecast
Language:Jupyter Notebook 17
sodadata / soda-github-action
:zap: Prevent downstream data quality issues by integrating the Soda Library into your CI/CD pipeline.
data-engineering data-monitoring data-observability data-quality data-quality-checks data-quality-monitoring data-quality-testing data-reliability data-testing data-unit-tests data-validation dataquality datatesting pipeline-testing snowflake
Language:Python 14
serialbandicoot / great-assertions
This library is inspired by the Great Expectations library. The library has made the various expectations found in Great Expectations available when using the inbuilt python unittest assertions.
testing great-expectations python3 databricks python data-science jupyter-notebook quality-assurance data-testing
Language:Python 10
jafeerr / spark-data-test
Spark Data Test - A PySpark-based automation testing utility to compare Spark DataFrames
apache-spark data-testing dataframe pyspark
Language:Python 7
data-caterer-example
data-catering / data-caterer-example
Example API implementation for Data Caterer
batch data-contracts data-engineering data-gen data-generation data-generator data-quality data-test data-testing data-validation data-validator java metadata-driven real-time scala testing-automation yaml
Language:Scala 6
DataBridgeTech / dbqctl
DataBridge Quality Control
data-engineering data-profiling data-quality data-quality-checks data-quality-monitoring dataquality dataqualitycheck data-monitoring data-observability data-pipeline-monitoring data-reliability data-reliability-engineering data-testing data-validation data-validator datatesting pipelines-testing clickhouse mysql postgresql
Language:Go 6
andrjas / data_check
data and pipeline testing with and for SQL
data-engineering data-quality data-testing data-unit-tests database dataquality pipeline sql data-validation
Language:Python 5
neonexus / fixted
Simple DB Fixtures for Sails.js v1 (fake data for testing).
testing fixtures database-testing fixtures-replacement sails sailsjs data-testing model-testing
Language:JavaScript 5
pflooky / data-caterer
Data generation and validation tool for any data source
data-generation data-validation data-quality data-testing
Language:Scala 5
ericmjl / software-testing-open-source-and-data-science
Software Testing in Open Source and Data Science: A talk delivered at the Data Umbrella speaker series
data-science data-testing machine-learning-testing software-testing testing
4
pflooky / data-caterer-example
Example API implementation for Data Caterer
data-generation data-generator data-profiler data-profiling data-testing data-validation datagenerator docker docker-compose helm java kubernetes metadata scala schema-validation sql synthetic-data
Language:Scala 3
pflooky / data-caterer-docs
Documentation for Data Caterer
data-testing data-validation datageneration datagenerator metadata scala schema-validation synthetic-data
Language:HTML 2
manoj9788 / spark-etl-tests
A sample repository showcasing, implementation of testing for ETL pipeline developed with Apache Spark
scala etl etl-automation data-testing
1
blleshi / Credit_Risk_Classification
Credit Risk Classification
classification-report confusion-matrix credit-risk data-testing imbalanced-learning lending loans logistic-regression logistic-regression-model pandas randomoversampler resampled-data target-classification credit-risk-classification data-training
Language:Jupyter Notebook 0
ojasphansekar / Data-Management-Co-op
National Grid ( Python, SQL Server, SSIS, SSRS, Tableau, Power BI, SQL Server Import Export Wizard, Data Validations, Data Integrations, Data Conversions )
data-integration data-architecture data-validation data-analysis-python data-testing process-flow-diagram data-modeling data-mapping
0
RemoYukoff / aqueductus
A data testing framework that executes queries on configurable data providers and validates the results with customizable YAML-defined assertions. Ensure data integrity, consistency, and reliability effortlessly.
assertions automated-testing data-completeness data-integrity data-quality data-testing data-validation python schema-validation unit-testing
Language:Python 0
afairless / kalman_filter
Translating between two sets of notation for Kalman filters
control control-systems data-testing filter filtering filters kalman-filter math-equations pytest state-space-model state-space-models statistics time-series time-series-analysis time-series-forecasting
Language:HTML
Balajimohan18 / Sales-Forecasting-Datascience-Project
Develop a data science project using historical sales data to build a regression model that accurately predicts future sales. Preprocess the dataset, conduct exploratory analysis, select relevant features, and employ regression algorithms for model development. Evaluate model performance, optimize hyperparameters, and provide actionable insights.
data-analytics data-science data-testing data-visualization forecasting forecasting-models machine-learning model-evaluation predictive-modeling python regression-algorithms salesforecast scipy sklearn-library supervised-learning
Language:Jupyter Notebook
JayLohokare / pySpark-data-testing-framework
Dynamic data testing engine based on pySpark
azure data-testing databricks pyspark testing-framework
Language:Jupyter Notebook
neha-nayeem / machine-learning-challenge
This project creates machine learning models capable of classifying candidate exoplanets from the raw dataset from NASA Kepler Space Telescope
machine-learning sklearn jupyter-notebook python model training model-training data-testing predictive-modeling
siawayforward / dbt_about_it
I'm learning how to use dbt with BigQuery so I can apply that knowledge wherever we end up working. It seems like a good DWH interface tool to know for data transformation and testing, and allows me to solidify concepts of testing in data ops.
dbt data-transformation data-testing
Language:Python

data-testing

sodadata / soda-core

re-data / re-data

InfuseAI / piperider

posit-dev / pointblank

LukaszLapaj / software-testing-resource-pack

astronomer / airflow-provider-great-expectations

re-data / dbt-re-data

akmalsoliev / Validoopsie

data-catering / data-caterer

DataKitchen / dataops-testgen

sodadata / soda-spark

shridhar1504 / Sales-Forecasting-Datascience-Project

sodadata / soda-github-action

serialbandicoot / great-assertions

jafeerr / spark-data-test

data-catering / data-caterer-example

DataBridgeTech / dbqctl

andrjas / data_check

neonexus / fixted

pflooky / data-caterer

ericmjl / software-testing-open-source-and-data-science

pflooky / data-caterer-example

pflooky / data-caterer-docs

manoj9788 / spark-etl-tests

blleshi / Credit_Risk_Classification

ojasphansekar / Data-Management-Co-op

RemoYukoff / aqueductus

afairless / kalman_filter

Balajimohan18 / Sales-Forecasting-Datascience-Project

JayLohokare / pySpark-data-testing-framework

neha-nayeem / machine-learning-challenge

siawayforward / dbt_about_it