dataquality

There are 13 repositories under dataquality topic.

great-expectations / great_expectations
Always know what to expect from your data.
cleandata data-engineering data-profilers data-profiling data-quality data-science data-unit-tests datacleaner datacleaning dataquality dataunittest eda exploratory-analysis exploratory-data-analysis exploratorydataanalysis mlops pipeline pipeline-debt pipeline-testing pipeline-tests
Language:Python 9863
cleanlab / cleanlab
The standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.
weak-supervision data-cleaning data-quality data-science noisy-labels data-centric-ai out-of-distribution-detection outlier-detection active-learning data-labeling data-profiling data-validation labeling data-curation annotation dataops dataquality llms datasets exploratory-data-analysis
Language:Python 9446
OpenMetadata
open-metadata / OpenMetadata
OpenMetadata is a unified metadata platform for data discovery, data observability, and data governance powered by a central metadata repository, in-depth column level lineage, and seamless team collaboration.
data-catalog data-collaboration data-contracts data-discovery data-governance data-lineage data-observability data-profiling data-quality data-quality-checks data-science data-validation datacatalog datadiscovery dataengineering dataquality dbt metadata metadata-management snowflake
Language:TypeScript 5275
awslabs / deequ
Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.
dataquality scala spark unit-testing
Language:Scala 3264
datafold / data-diff
Compare tables within or across databases
data data-diffing data-engineering data-quality data-quality-monitoring data-science database databricks-sql dataengineering dataquality dbt mysql oracle-database postgres postgresql python rdbms snowflake sql trino
Language:Python 2935
soda-core
sodadata / soda-core
:zap: Data quality testing for the modern data stack (SQL, Spark, and Pandas) https://www.soda.io
python data-engineering data-governance data-monitoring data-observability data-profiling data-quality data-quality-checks data-quality-monitoring data-reliability data-testing data-unit-tests data-validation dataquality datatesting dbt pipeline-testing snowflake data-quality-testing data-contracts
Language:Python 1873
re-data / re-data
re_data - fix data issues before your users & CEO would discover them 😊
data-analysis data-monitoring data-observability data-quality data-quality-checks data-quality-monitoring data-reliability data-testing dataquality dbt dbt-packages open-source-tooling
Language:HTML 1543
zingg
zinggAI / zingg
Scalable identity resolution, entity resolution, data mastering and deduplication using ML
fuzzymatch fuzzy-matching deduplication dedupe masterdata dataengineering data-transformation analytics-engineering entity-resolution identity-resolution data-transformations data-science spark ml etl dataquality identity modern-data-stack analytics datalake
Language:Java 950
chaos_genius
chaos-genius / chaos_genius
ML powered analytics engine for outlier detection and root cause analysis.
ai alert alert-messages analytics anomaly-detection business-intelligence data-visualization dataquality deep-learning hacktoberfest machine-learning ml monitoring monitoring-tool observability outlier-detection python rootcauseanalysis seasonality time-series
Language:Python 728
datacleaner / DataCleaner
The premier open source Data Quality solution
data data-analysis data-science database datacleaner dataquality desktop etl mdm profiling
Language:Java 591
datavane / datavines
Know your data better！Datavines is Next-gen Data Observability Platform, support metadata manage and data quality.
dataobservability dataprofile dataquality datascience doris metadata spark
Language:Java 447
IBM / lale
Library for Semi-Automated Data Science
scikit-learn automl automated-machine-learning hyperparameter-optimization hyperparameter-tuning hyperparameter-search python artificial-intelligence pipeline-tests pipeline-testing dataquality data-science machine-learning ibm-research ibm-research-ai interoperability
Language:Python 329
canimus / cuallee
Possibly the fastest DataFrame-agnostic quality check library in town.
bigdata performance-metrics pyspark python3 unit-testing pydeequ pandas snowpark dataquality data-quality data-quality-checks
Language:Python 158
dcs-core
datachecks / dcs-core
Open Source Data Quality Monitoring.
data-engineering data-validation dataops dataquality metrics mlops postgresql python data-governance data-observability database postgres sql data-quality-monitor data-quality-monitoring data-ops elasticsearch mysql etl monitoring
Language:Python 137
AutoViML / pandas_dq
Find data quality issues and clean your data in a single line of code with a Scikit-Learn compatible Transformer.
data data-science dataquality dataqualitycheck machine-learning pandas python scikit-learn
Language:Python 124
OSMCha / osmcha-frontend
Frontend for the osmcha-django REST API
dataquality openstreetmap osm osmcha qa
Language:JavaScript 121
data-observability-installer
DataKitchen / data-observability-installer
Installer for DataKitchen's Open Source Data Observability Products. Data breaks. Servers break. Your toolchain breaks. Ensure your team is the first to know and the first to solve with visibility across and down your data estate. Save time with simple, fast data quality test generation and execution. Trust your data, tools, and systems end to end.
data data-engineering data-observability data-profiling data-quality data-science datacleaner datacleaning dataops dataquality mssql pipeline-tests postgresql redshift self-hosted snowflake datachecker datatesting datavalidation data-reliability
Language:Python 76
schic / DQCS
数据质量控制系统
data etl dataquality database
Language:Java 43
infinitelambda / dq-tools
Make simple storing test results and visualisation of these in a BI dashboard
dataquality dbt package
Language:PLpgSQL 36
dataops-testgen
DataKitchen / dataops-testgen
DataOps Data Quality TestGen is part of DataKitchen's Open Source Data Observability. DataOps TestGen delivers simple, fast data quality test generation and execution by data profiling, new dataset hygiene review, AI generation of data quality validation tests, ongoing testing of data refreshes, & continuous anomaly monitoring
data data-engineering data-observability data-quality data-science data-testing datachecker dataprofiling dataquality datavalidation self-hosted dataops mssql postgresql python redshift snowflake
Language:Python 35
AltimateAI / datapilot-cli
Datailot-cli is the command line interface for accessing the AI teammate for engineers to ensure best practices in their SQL and dbt projects.
dataquality dbt dbt-core
Language:Python 21
qizhixinhit / Dirty-dataImpacts
Codes&Datasets
data-science dataquality
Language:C++ 17
BirdiD / BirdiDQ
BirdiDQ leverages the power of the Python Great Expectations open-source library and combines it with the simplicity of natural language queries to effortlessly identify and report data quality issues, all at the tip of your fingers.
ai dataquality great-expectations large-language-models
Language:Jupyter Notebook 14
open-metadata / openmetadata-site
Open Standard for Metadata. A Single place to Discover, Collaborate and Get your data right.
automation bigdata bigdataanalytics data-catalog data-discovery data-observability data-profiling data-quality-monitoring data-science datadiscovery dataengineering dataquality datascience dbt governance hacktoberfest hacktoberfest2022 metadata metadata-api metadata-management
Language:CSS 14
bikash / DataQuality
Tutorial and examples of Data Quality in Big Data System
dataquality data-quality big-data
12
grillazz / fastapi-greatexpectations
Run greatexpectations.io on ANY SQL Engine using REST API. Supported by FastAPI, Pydantic and SQLAlchemy as best data quality tool
fastapi great-expectations python python3 sqlalchemy pydantic dataquality dataqualitycheck sql
Language:Python 12
HuemulSolutions / huemul-bigdatagovernance
Huemul BigDataGovernance, es una framework que trabaja sobre Spark, Hive y HDFS. Permite la implementación de una estrategia corporativa de dato único, basada en buenas prácticas de Gobierno de Datos. Permite implementar tablas con control de Primary Key y Foreing Key al insertar y actualizar datos utilizando la librería, Validación de nulos, largos de textos, máximos/mínimos de números y fechas, valores únicos y valores por default. También permite clasificar los campos en aplicabilidad de derechos ARCO para facilitar la implementación de leyes de protección de datos tipo GDPR, identificar los niveles de seguridad y si se está aplicando algún tipo de encriptación. Adicionalmente permite agregar reglas de validación más complejas sobre la misma tabla.
bigdata spark-sql spark hive parquet data data-governance hadoop data-warehouse datamart dataquality data-engineering data-engineer cloudera hortonworks huemul-bigdatagovernance trabaja-sobre-spark chile huemul gdpr
Language:Scala 11
sodadata / soda-github-action
:zap: Prevent downstream data quality issues by integrating the Soda Library into your CI/CD pipeline.
data-engineering data-monitoring data-observability data-quality data-quality-checks data-quality-monitoring data-quality-testing data-reliability data-testing data-unit-tests data-validation dataquality datatesting pipeline-testing snowflake
Language:Python 11
josephmachado / data-quality-w-greatexpectations
Code for data quality with greatexpectations blog
dataengineering dataquality greatexpectations python
Language:Python 10
openclients
Data-Culpa / openclients
Open source clients for working with Data Culpa Validator services from data pipelines
data dataquality datamonitor datamonitoring dataops dataculpa
Language:Python 9
Luzzu / Framework
Luzzu Quality Assessment Framework
dataquality semanticweb linkeddata
Language:Java 9
ydataai / ydata-talkdatatome
Make your dataset talk to you. The AI assistant for data preparation.
data dataprep datapreparation dataquality eda generativeai
Language:Python 9
devoteamgcloud / dataform-assertions
Enhance your data testing seamlessly with this Dataform package, featuring robust common assertions to ensure the accuracy and integrity of your warehouse data.
bigquery dataengineering dataform dataquality
Language:JavaScript 8
setup-duckdb-action
opt-nc / setup-duckdb-action
🦆 Blazing Fast and highly customizable Github Action to setup a DuckDb runtime
action actions csv data-science database databases dataquality dataqualitycheck duckdb github-actions olap sql analytics embedded-database
Language:JavaScript 8
rodrigobaron / qafs
Quality Aware Feature Store
feature-store dataquality feature-engineering
Language:Python 8
SQL-DQC
martandsingh / SQL-DQC
SQL based data profiling & data quality checks, which will help you to perform data profiling & data quality checks on SQL database at table & database level.
database dataengineering datagovernance dataprofiling dataquality dataqualitycheck datascience sql sqlserver analysis data-science dataanalysis database-management database-schema oracle sqlserver-2017 stored-procedures
Language:TSQL 7

dataquality

great-expectations / great_expectations

cleanlab / cleanlab

open-metadata / OpenMetadata

awslabs / deequ

datafold / data-diff

sodadata / soda-core

re-data / re-data

zinggAI / zingg

chaos-genius / chaos_genius

datacleaner / DataCleaner

datavane / datavines

IBM / lale

canimus / cuallee

datachecks / dcs-core

AutoViML / pandas_dq

OSMCha / osmcha-frontend

DataKitchen / data-observability-installer

schic / DQCS

infinitelambda / dq-tools

DataKitchen / dataops-testgen

AltimateAI / datapilot-cli

qizhixinhit / Dirty-dataImpacts

BirdiD / BirdiDQ

open-metadata / openmetadata-site

bikash / DataQuality

grillazz / fastapi-greatexpectations

HuemulSolutions / huemul-bigdatagovernance

sodadata / soda-github-action

josephmachado / data-quality-w-greatexpectations

Data-Culpa / openclients

Luzzu / Framework

ydataai / ydata-talkdatatome

devoteamgcloud / dataform-assertions

opt-nc / setup-duckdb-action

rodrigobaron / qafs

martandsingh / SQL-DQC