data-matching

There are 12 repositories under data-matching topic.

moj-analytical-services / splink
Fast, accurate and scalable probabilistic data linkage with support for multiple SQL backends
data-matching data-science deduplicate-data deduplication duckdb em-algorithm entity-resolution fuzzy-matching record-linkage spark uk-gov-data-science
Language:Python 1292
recordlinkage
J535D165 / recordlinkage
A powerful and modular toolkit for record linkage and duplicate detection in Python
record-linkage entity-resolution dedupe string-distance machine-learning privacy python python-library data-matching deduplication similarity utrecht-university
Language:Python 952
J535D165 / data-matching-software
A list of free data matching and record linkage software.
awesome awesome-list data-matching deduplication entity-resolution fuzzy-matching machine-learning open-source record-linkage software
358
RobinL / fuzzymatcher
Record linking package that fuzzy matches two Python pandas dataframes using sqlite3 fts4
fuzzy-matching probabalistic-matching data-matching pypi
Language:Python 281
maxharlow / csvmatch
🔎 Finds fuzzy matches between CSV files
data-matching entity-resolution fuzzy-matching record-linkage csv
Language:Python 183
vintasoftware / entity-embed
PyTorch library for transforming entities like companies, products, etc. into vectors to support scalable Record Linkage / Entity Resolution using Approximate Nearest Neighbors.
entity-resolution record-linkage representation-learning embeddings approximate-nearest-neighbors deduplication entity-matching data-matching deep-learning python pytorch
Language:Jupyter Notebook 146
ropeladder / record-linkage-resources
Resources for tackling record linkage / deduplication / data matching problems
record-linkage deduplication data-matching entity-resolution python java javascript
111
Wikidata / soweego
Link Wikidata items to large catalogs
wikimedia wikidata knowledge-graph record-linkage data-matching entity-resolution identifiers entity-linking
Language:Python 97
pyJedAI
AI-team-UoA / pyJedAI
An open-source library that leverages Python’s data science ecosystem to build powerful end-to-end Entity Resolution workflows.
deduplication entity-matching entity-resolution python link-discovery data-matching fuzzy-matching machine-learning data-disambigation duplicate-detection
Language:Python 68
Senzing / awesome
Curated list of awesome software and resources for Senzing, The First Real-Time AI for Entity Resolution.
senzing entity-resolution entity resolution record-linkage entity-matching resource awesome data-matching de-duplicating dedupe deduplication fuzzy-matching fuzzymatch identity identity-resolution disambiguation entities entity-linking senzing-community
Language:Python 51
J535D165 / recordlinkage-annotator
A browser user interface for manual labeling of record pairs.
annotation-tool data-matching deduplication entity-resolution labeling-tool machine-learning record-linkage
Language:JavaScript 41
snowman
HPI-Information-Systems / snowman
Welcome to Snowman App – a Data Matching Benchmark Platform.
matching entity-resolution kpis data-matching duplicate-detection benchmark snowman data-stewards
Language:TypeScript 37
lewinfox / levitate
Fuzzy string matching in R. Inspired by Python's thefuzz (but without the Python).
fuzzy-matching string-similarity r data-matching similarity-measures thefuzz
Language:R 34
vaneseltine / nominally
A maximum-strength name parser for record linkage.
data-science parsing human-name entity-resolution record-linkage deduplication parser data-matching
Language:Python 30
carlosraphael / specification-pattern
https://medium.com/@carlosraphael/specification-design-pattern-in-java-8-bac6f5f943bc
java software-design data-matching specification-pattern hibernate
Language:Java 29
abcsys / libem
Compound AI toolchain for fast and accurate entity matching, powered by LLMs.
entity-matching entity-resolution llm python compound-ai-systems data-matching large-language-models data-integration openai ai database gpt llama
Language:Python 17
maxharlow / textmatch
🔎 Finds fuzzy matches between datasets
data-matching entity-resolution fuzzy-matching record-linkage
Language:Python 10
wbsg-uni-mannheim / winter
WInte.r is a Java framework for end-to-end data integration. The WInte.r framework implements well-known methods for data pre-processing, schema matching, identity resolution, data fusion, and result evaluation.
conflict-resolution conflict-resolver data-fusion data-matching deduplication entity-matching entity-resolution link-discovery
Language:Java 7
Evnsn / awsome-entity-resolution
A collection of awesome resources regarding Record Linkage.
awesome awesome-list data-matching entity-resolution record-linkage data-linkage datamatching entityresolution machine-learning python recordlinkage entity-matching er dm em
5
ihmeuw / person_linkage_case_study
Emulates the methods the US Census Bureau uses to link people across multiple data sources, using open-source software (Splink) and simulated data (from pseudopeople).
census-bureau dask data-matching data-science entity-resolution fuzzy-matching record-linkage spark splink
Language:HTML 3
rohitgarud / asreview-preprocess
An extension for ASReview Lab to preprocess the dataset before importing in ASReview
asreview data-matching data-preprocessing deduplication record-linkage systematic-review
Language:Python 2
AvinashSingh786 / WekaComparator
Weka Comparator to match rules to test data with filtering abilites
data-parser data-aggregation data-filtering data-matching
Language:Java 1
Knodl-LLC / KnoDL-Match
Service for automatic matching two data sets without mapping
fuzzy-matching artificial-intelligence data-science associative-array associations association-analysis matching match matcher matcher-functions data-engineering datascience text-matching data-matching
Language:Shell 1
sevetseh28 / data-integration-extensible-framework
Undergraduate Final Project (needs README up to date!!) - Scientific paper soon to be included
data-fusion data-integration data-matching entity-linking entity-resolution
Language:HTML 1
greyhub / job_center
Crawl, matching and explore data about jobs in Viet Nam.
scrapy job schedule exploratory-data-analysis data-matching machine-learning
Language:Jupyter Notebook 0
pkhaan / AutoCuratedMovieLists
This projects aims to provide lists containing only great movies to users based only a gew filters and search parameters.
api-python data-integration data-matching scraping-python
Language:Dart 0
boscoj2008 / AdapterEM
AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity Matching using Adapter-tuning
data-matching entity-matching
Language:Python
Gust4voSales / proxcluster-deduplicator
ProxCluster is a framework for Incremental Entity Resolution that leverages concepts similar to K-Means for clustering duplicates. This work was developed as the final paper for my Bachelor degree in Computer Science
clustering data-integration data-matching data-science database deduplication entity-resolution k-means pandas polars python
Language:Jupyter Notebook
KNehe / musical
A Single View application aggregates and reconciles data from multiple sources to create a single view of an entity.
csv data-matching data-reconciliation django python
Language:Python
lokhande-vishnu / cs838-data-science
Repository for CS 838 (Spring 2017) Data Science project
data-integration data-matching data-science olap
Language:Jupyter Notebook
Xhst / ml-record-linkage
Unstructured Record Linkage using Siamese Networks and Large Language Models (LLMs) such as LLAMA3 and ChatGPT-4o.
agglomerative chatgpt data-linkage data-matching dbscan entity-resolution hdbscan k-means llama3 llm python record-linkage bert distilbert
Language:Python

data-matching

moj-analytical-services / splink

J535D165 / recordlinkage

J535D165 / data-matching-software

RobinL / fuzzymatcher

maxharlow / csvmatch

vintasoftware / entity-embed

ropeladder / record-linkage-resources

Wikidata / soweego

AI-team-UoA / pyJedAI

Senzing / awesome

J535D165 / recordlinkage-annotator

HPI-Information-Systems / snowman

lewinfox / levitate

vaneseltine / nominally

carlosraphael / specification-pattern

abcsys / libem

maxharlow / textmatch

wbsg-uni-mannheim / winter

Evnsn / awsome-entity-resolution

ihmeuw / person_linkage_case_study

rohitgarud / asreview-preprocess

AvinashSingh786 / WekaComparator

Knodl-LLC / KnoDL-Match

sevetseh28 / data-integration-extensible-framework

greyhub / job_center

pkhaan / AutoCuratedMovieLists

boscoj2008 / AdapterEM

Gust4voSales / proxcluster-deduplicator

KNehe / musical

lokhande-vishnu / cs838-data-science

Xhst / ml-record-linkage