data-profiling

There are 21 repositories under data-profiling topic.

ydataai / ydata-profiling
1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames.
pandas-profiling pandas-dataframe statistics jupyter-notebook exploration data-science python pandas machine-learning deep-learning exploratory-data-analysis eda data-quality html-report data-exploration data-analysis jupyter big-data-analytics data-profiling hacktoberfest
Language:Python 13249
cleanlab / cleanlab
Cleanlab's open-source library is the standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.
weak-supervision data-cleaning data-quality data-science noisy-labels data-centric-ai out-of-distribution-detection outlier-detection active-learning data-labeling data-profiling data-validation labeling data-curation annotation dataops dataquality llms datasets exploratory-data-analysis
Language:Python 11082
great-expectations / great_expectations
Always know what to expect from your data.
pipeline-tests dataquality datacleaning datacleaner data-science data-profiling pipeline pipeline-testing cleandata dataunittest data-unit-tests eda exploratory-data-analysis exploratory-analysis exploratorydataanalysis data-quality data-engineering pipeline-debt data-profilers mlops
Language:Python 10913
OpenMetadata
open-metadata / OpenMetadata
OpenMetadata is a unified metadata platform for data discovery, data observability, and data governance powered by a central metadata repository, in-depth column level lineage, and seamless team collaboration.
data-catalog data-collaboration data-contracts data-discovery data-governance data-lineage data-observability data-profiling data-quality data-quality-checks data-validation datadiscovery dataengineering dataquality hacktoberfest mcp mcp-server metadata metadata-management snowflake
Language:TypeScript 7946
fbdesignpro / sweetviz
Visualize and compare datasets, target values and associations, with one line of code.
pandas-dataframe eda pandas data-exploration data-analysis data-science data-visualization machine-learning data-profiling exploratory-data-analysis statistics exploration python
Language:Python 3056
soda-core
sodadata / soda-core
:zap: Data quality testing for the modern data stack (SQL, Spark, and Pandas) https://www.soda.io
python data-engineering data-governance data-monitoring data-observability data-profiling data-quality data-quality-checks data-quality-monitoring data-reliability data-testing data-unit-tests data-validation dataquality datatesting dbt pipeline-testing snowflake data-quality-testing data-contracts
Language:Python 2226
hi-primus / optimus
:truck: Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark
big-data-cleaning bigdata cudf dask dask-cudf data-analysis data-cleaner data-cleaning data-cleansing data-exploration data-extraction data-preparation data-profiling data-science data-transformation data-wrangling machine-learning pyspark spark
Language:Python 1524
odd-platform
opendatadiscovery / odd-platform
First open-source data discovery and observability platform. We make a life for data practitioners easy so you can focus on your business.
oss data-platform metadata metadata-management data-pipelines data-engineering observability data-catalog datacatalog data-discovery data-lineage bigdata alerting lineage data-profiling data-exploration data-governance data-quality data-science data-observability
Language:Java 1365
cleanlab / cleanvision
Automatically find issues in image datasets and practice data-centric computer vision.
computer-vision data-centric-ai data-exploration data-profiling data-quality data-science data-validation deep-learning exploratory-data-analysis image-analysis image-classification image-generation image-quality image-segmentation
Language:Python 1131
datavane / datavines
Know your data better！Datavines is Next-gen Data Observability Platform, support metadata manage and data quality.
cleandata data-engineering data-profilers data-profiling data-quality data-quality-checks data-quality-framework data-quality-monitoring data-quality-report data-science dataobservability dataprofile dataquality datascience doris flink metadata spark
Language:Java 687
polyaxon / traceml
Engine for ML/Data tracking, visualization, explainability, drift detection, and dashboards for Polyaxon.
pandas pandas-summary dataframes data-science spark dask plotly statistics matplotlib data-profiling data-visualization data-exploration dataops mlops data-quality data-quality-checks explainable-ai pytorch tensorflow tracking
Language:Python 520
popmon
ing-bank / popmon
Monitor the stability of a Pandas or Spark dataframe ⚙︎
population-monitoring monitoring data-science python data-distributions statistics data-profiling statistical-tests statistical-process-control pandas spark data-analysis jupyter ipython ing-bank mlops hacktoberfest dataset-shifts covariate-shift drift-detection
Language:Python 509
piperider
InfuseAI / piperider
Code review for data in dbt
code-review continuous-integration data-exploration data-observability data-pipeline data-profiler data-profiling data-quality data-reliability data-science data-testing data-visualization dbt dbt-metrics eda exploratory-data-analysis pull-requests python reporting
Language:Python 492
polyaxon / haupt
Lineage metadata API, artifacts streams, sandbox, API, and spaces for Polyaxon
tensorflow deep-learning jupyter python pytorch machine-learning models ui visualization matplotlib plotly bokeh mlops data-science data-visualization data-processing data-profiling tracking lineage serving
Language:Python 451
desbordante-core
Desbordante / desbordante-core
Desbordante is a high-performance data profiler that is capable of discovering many different patterns in data using various algorithms. It also allows to run data cleaning scenarios using these algorithms. Desbordante has a console version and an easy-to-use web application.
data-analytics data-cleaning data-cleansing data-engineering data-exploration data-mining data-profiling data-science data-wrangling data-preprocessing feature-selection feature-engineering feature-extraction spreadsheets tabular-data anomaly-detection data-mining-algorithms exploratory-data-analysis knowledge-discovery correlations
Language:C++ 429
dqx
databrickslabs / dqx
Databricks framework to validate Data Quality of pySpark DataFrames
data-profiling data-quality data-quality-checks data-quality-monitoring databricks spark spark-streaming dlt
Language:Python 334
dqo
dqops / dqo
Data Quality and Observability platform for the whole data lifecycle, from profiling new data sources to full automation with Data Observability. Configure data quality checks from the UI or in YAML files, let DQOps run the data quality checks daily to detect data quality issues.
data-observability data-ops data-profiling data-quality data-quality-checks data-quality-measurement data-quality-monitoring data-quality-report monitoring
Language:Java 171
hi-primus / bumblebee
🚕 A spreadsheet-like data preparation web app that works over Optimus (Pandas, Dask, cuDF, Dask-cuDF, Spark and Vaex)
data-profiling data-cleaning bumblebee gui data-preparation python dask optimus gpu cudf dask-cudf prepare-data datasets
Language:Vue 141
data-observability-installer
DataKitchen / data-observability-installer
Installer for DataKitchen's Open Source Data Observability Products. Data breaks. Servers break. Your toolchain breaks. Ensure your team is the first to know and the first to solve with visibility across and down your data estate. Save time with simple, fast data quality test generation and execution. Trust your data, tools, and systems end to end.
data data-engineering data-observability data-profiling data-quality data-science datacleaner datacleaning dataops dataquality mssql pipeline-tests postgresql redshift self-hosted snowflake datachecker datatesting datavalidation data-reliability
Language:Python 129
SJTU-DMTai / awesome-ml-data-quality-papers
Papers about training data quality management for ML models.
ai4db data-debugging data-management data-profiling data-quality data-valuation db4ai machine-learning data-centric-ai
99
swiple
Swiple / swiple
Swiple enables you to easily observe, understand, validate and improve the quality of your data
data data-observability data-quality observability python validation fastapi data-profiling data-science data-analytics data-quality-checks data-quality-framework data-quality-monitoring data-reliability swiple
Language:Python 84
psebenick / data-profiling
a set of scripts to pull meta data and data profiling metrics from relational database systems
data-profiling metadata database inventory hive sqlserver python sql oracle
Language:Python 77
apicrafter / metacrafter
Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules
metadata pii pii-detection data-profiling entity-recognition datadiscovery
Language:Python 45
opendatadiscovery / odd-collector
Open-source metadata collector based on ODD Specification
data-catalog data-discovery data-governance data-observability data-platform data-profiling datacatalog lineage data-piplines hacktoberfest
Language:Python 44
VIDA-NYU / auctus
Dataset search engine, discovering data from a variety of sources, profiling it, and allowing advanced queries on the index
crawling data-profiling dataset dataset-search index search search-engine
Language:Python 44
cleanlab / cleanlab-studio
Client interface to Cleanlab Studio
annotations automl computer-vision data-centric-ai data-cleaning data-curation data-labeling data-profiling data-quality data-science data-validation image-classification llm machine-learning model-deployment natural-language-processing noisy-labels outlier-detection structured-data text-classification
Language:Python 32
tsegall / fta
Metadata/data identification Java library. Identifies Semantic Type information (e.g. Gender, Age, Color, Country,...). Extensive country/language support. Extensible via user-defined plugins. Comprehensive Profiling support.
semantic-type-detection semantic-typechecking semantic-types date java data-discovery data-profiling data-profiler metadata
Language:Java 31
ismaildawoodjee / GreatEx
A project for exploring how Great Expectations can be used to ensure data quality and validate batches within a data pipeline defined in Airflow.
docker airflow great-expectations python data-quality ecommerce csv sql postgres parquet elt data-pipeline pipeline data-engineering etl data-profiling
Language:Python 23
dm4ml / gate
Drift detection module for machine learning pipelines.
data-science drift-detection machine-learning python data-profiling dataset-shifts mlops drift
Language:Python 22
raymon-ai / raymon
The official http://raymon.ai data profiling and logging library.
machine-learning artificial-intelligence data-profiling data-validation logging-library
Language:Python 18
baligoyem / dataqtor
🔍Your Data Quality Detector / Gain insight into your data and get it ready for use before you start working with it 💡📊🛠💎
data-quality data-analysis data-quality-checks data-quality-measurement data-quality-assessment data-manipulation data-quality-monitoring streamlit pandas data-profiling
Language:Python 16
open-metadata / openmetadata-site
Open Standard for Metadata. A Single place to Discover, Collaborate and Get your data right.
automation bigdata bigdataanalytics data-catalog data-discovery data-observability data-profiling data-quality-monitoring data-science datadiscovery dataengineering dataquality datascience dbt governance hacktoberfest hacktoberfest2022 metadata metadata-api metadata-management
Language:TypeScript 15
ahmadassaf / roomba
A Node.js tool to examine the correctness of Open Data Metadata and build custom dataset profiles
node data-quality dataset portal ckan ckan-api dataset-catalog dataset-metadata data-profiling
Language:JavaScript 12
CoDS-GCS / kglids
Linked Data Science powered by Knowledge Graphs
data-profiling datascience knowledge-graph linked-data-science pipelines
Language:Python 12
LieseB-1746743 / data-cleaning
Data cleaning tool.
cleaning-data data-profiling data-cleaning data-cleansing data-clustering
Language:JavaScript 9
SebastianSchmidl / distod
DISTOD algorithm: Distributed discovery of bidirectional order dependencies
java scala data-profiling order-dependencies order-dependency-discovery akka akka-cluster distributed-systems bidirectional-order-dependencies elastic
Language:Scala 9