jaccard-similarity

There are 1 repository under jaccard-similarity topic.

ekzhu / datasketch
MinHash, LSH, LSH Forest, Weighted MinHash, HyperLogLog, HyperLogLog++, LSH Ensemble and HNSW
data-sketches data-summary hnsw hyperloglog jaccard-similarity locality-sensitive-hashing lsh lsh-ensemble lsh-forest minhash python search top-k weighted-quantiles
Language:Python 2655
adrg / strutil
Go metrics for calculating string similarity and other string utility functions
dice-coefficient golang hamming-distance jaccard jaccard-index jaccard-similarity jaro jaro-winkler levenshtein n-gram n-gram-intersection overlap-coefficient smith-waterman smith-waterman-gotoh sorensen-dice string string-distance string-matching string-metrics string-similarity
Language:Go 363
matiskay / html-similarity
Compare html similarity using structural and style metrics
similarity jaccard-similarity html python36
Language:Python 210
Jingnan-Jia / segmentation_metrics
A package to compute medical segmentation metrics.
dice hausdorff-distance jaccard-similarity medical-imaging metrics segmentation surface-distances
Language:Python 155
chrismattmann / tika-similarity
Tika-Similarity uses the Tika-Python package (Python port of Apache Tika) to compute file similarity based on Metadata features.
similarity-score machine-learning clustering information-retrieval cosine-similarity cosine-distance python tika jaccard-similarity tika-similarity metadata-features tika-python
Language:Python 108
vickumar1981 / stringdistance
A fuzzy matching string distance library for Scala and Java that includes Levenshtein distance, Jaro distance, Jaro-Winkler distance, Dice coefficient, N-Gram similarity, Cosine similarity, Jaccard similarity, Longest common subsequence, Hamming distance, and more..
levenshtein-distance levenshtein ngram jaro-distance jaro jaro-winkler jaro-winkler-distance dice-coefficient hamming-distance sorensen-dice-distance string-similarity cosine-similarity cosine-similarity-scores jaccard-similarity jaccard longest-common-subsequence fuzzy-matching hacktoberfest soundex soundex-algorithm
Language:Scala 78
andrewmcloud / consimilo
A Clojure library for querying large data-sets on similarity
minhash-lsh-algorithm minhash clojure lsh lsh-forest data-sketching data-sketches similarity similarity-search jaccard-similarity cosine-distance hamming-distance plagiarism-detection recommender-system collaborative-filtering document-similarity
Language:Clojure 63
MrPowers / spark-stringmetric
Spark functions to run popular phonetic and string matching algorithms
cosine-distance spark fuzzy-score hamming-distance jaccard-similarity jaro-winkler double-metaphone nysiis refined-soundex
Language:Scala 60
dynatrace-research / set-sketch-paper
SetSketch: Filling the Gap between MinHash and HyperLogLog
sketch hyperloglog hyperloglog-sketches minhash minhash-lsh-algorithm minhash-sketches minhash-similarity jaccard-similarity jaccard intersection inclusion-exclusion estimation cardinality-estimation locality-sensitive-hashing minwise-hashing minwise-hashing-algorithm jaccard-similarity-estimation sketch-algorithm cosine-similarity sketch-data-structures
Language:C++ 49
mrkkrp / text-metrics
Calculate various string metrics efficiently in Haskell
string-metrics haskell levenshtein-distance hamming-distance jaro-distance jaro-winkler-distance jaccard-similarity
Language:Haskell 44
oertl / probminhash
ProbMinHash – A Class of Locality-Sensitive Hash Algorithms for the (Probability) Jaccard Similarity
locality-sensitive-hashing similarity jaccard-similarity sketch minhash minhash-sketches jaccard-similarity-estimation lsh-algorithm
Language:C++ 42
Pooja-Bhojwani / linked-eed
Aim is to come up with a job recommender system, which takes the skills from LinkedIn and jobs from Indeed and throws the best jobs available for you according to your skills.
data-mining data-preprocessing python text-mining social-network-backend job-recommendation skill-algorithm jaccard-similarity
Language:Python 36
oertl / bagminhash
BagMinHash - Minwise Hashing Algorithm for Weighted Sets
jaccard-similarity jaccard-similarity-estimation locality-sensitive-hashing minhash minwise-hashing minwise-hashing-algorithm weighted-sets
Language:C++ 26
mashing-pumpkins
lgautier / mashing-pumpkins
Minhash and maxhash library in Python, combining flexibility, expressivity, and performance.
minhash locality-sensitive-hashing python jaccard-similarity dice-similarity minhash-sketches murmurhash3 xxhash
Language:C 21
chanddu / Sentence-similarity-based-on-Semantic-nets-and-Corpus-Statistics-
This is an implementation of the paper written by Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett
natural-language-processing sentence-similarity jaccard-similarity semantic-similarity-measures
Language:Python 20
EdDuarte / similarity-search-java
Easy-to-use Java library for similarity checking of strings or numeric-series
jaccard-similarity lsh minhash similarity text-diff java-library java
Language:Java 20
emarkou / Text-Similarity
A text similarity computation using minhashing and Jaccard distance on reuters dataset
text-similarity jaccard-similarity minhash-lsh-algorithm
Language:R 16
italo-batista / lsh-semantic-similarity
Locality Sensitive Hashing for semantic similarity (Python 3.x)
lsh jaccard-similarity tutorial textual-analysis
Language:Python 15
tmpsrcrepo / benchmark_minhash_lsh
insight data engineering fellow project
jaccard-similarity algorithm minhash-lsh-algorithm spark batch spark-streaming text-processing
Language:Python 15
zhangcong-zc / Text_Matching
Text Matching Based on LCQMC: A Large-scale Chinese Question Matching Corpus
abcnn dssm esim edit-distance jaccard-similarity bimpm
Language:Python 15
ada-k / TweetsClassification
Exploring Jaccard and Cosine similarities performances then visualising their output using k means and kmeans with pca. Additional input on time series analysis, web scrapping and twitter scrapping.
tweepy kmeans pca beautifulsoup jaccard-similarity tweets-classification
Language:Jupyter Notebook 14
oertl / treeminhash
TreeMinHash: Fast Sketching for Weighted Jaccard Similarity Estimation
minhash weighted-sets sketching sketching-algorithm jaccard-similarity jaccard-distance jaccard jaccard-index lsh-algorithm locality-sensitive minwise-hashing minwise-hashing-algorithm locality-sensitive-hashing hash-algorithm similarity-measures similarity-search similarity-metric jaccard-similarity-estimation jaccard-coefficient
Language:C++ 14
sumn2u / string-comparisons
A collection of string comparisons algorithms
javascript similarity-measures string-comparison algorithms cosine-similarity damerau-levenshtein distance hamming-distance jaccard-similarity jaro-winkler-distance levenshtein-distance smith-waterman sorensen-dice-distance string-distance trigrams
Language:JavaScript 14
581-pooja / CheckMyAnswer
The evaluation of subjective answers has long been a challenge for educators, employers, and researchers. CheckMyAnswer, powered by machine learning algorithms, has emerged as a solution to this challenge.
bert-fine-tuning colab-notebook cosine-similarity flask html-css jaccard-similarity machine-learning
Language:Jupyter Notebook 9
NamrataThakur / Social-Network-Link-Prediction
A graph mining problem where the task was to predict a link between the given nodes. Engineered different features like Jaccard Distance, Cosine-Similarity, Shortest Path, Page Rank, Adar Index, HITS score and Kartz Centrality. Finally built non-linear models to get the final F1 score as 0.92.
link-prediction adar-index jaccard-similarity jaccard-distance cosine-similarity hits
Language:Jupyter Notebook 9
SasheVuchkov / near-duplicate-docs
Simple library for finding duplicate and near-duplicate text documents in massive sets/libraries/databases
near-duplicates near-duplicate-detection similarity-search jaccard-similarity
Language:TypeScript 9
Sitaras / Data-Mining
Project 1: 🎬🍿 Movie-Recommendation-System, Project 2: 📰🔍Fake News Detection System
datamining data-mining-algorithms data-mining-python jupiter-notebook news random-forest word2vec naive-bayes logistic-regression tf-idf cosine-similarity support-vector-machines fake-news-detection jaccard-similarity recommendation-system bag-of-words
Language:Jupyter Notebook 9
anshul1004 / TweetsClustering
Clustering similar tweets using K-means clustering algorithm and Jaccard distance metric
twitter tweets tweet-clustering clustering k-means k-means-clustering k-means-implementation-in-python python python3 jaccard-similarity jaccard-distance health-data unsupervised-learning data-preprocessing clustering-algorithm jaccard tweet-classifier unsupervised-clustering uci-machine-learning machine-learning
Language:Python 7
deepampatel / SimNode-Zomato-graph
Find similar nodes in graph using jaccard similarity. Use this to recommend similar dishes and restaurants
graph neo4j-admin similarity-search jaccard-similarity zomato restaurants food food-search
Language:Jupyter Notebook 7
vokter / vokter
Document store that periodically checks for changes in web documents
lsh minhash jaccard-similarity similarity diffmatchpatch bloom-filter java-library notifications quartz text-diff java work-in-progress differences-detected
Language:Java 7
artisan1218 / Recommendation-System
Hybrid RecSys, CF-based RecSys, Model-based RecSys, Content-based RecSys, Finding similar items using Jaccard similarity
jaccard-similarity cosine-similarity tfidf collaborative-filtering content-based-recommendation user-based-recommendation item-based-recommendation spark pearson-correlation tf-idf-score similar-items svd-matrix-factorisation xgboost xgboost-regression surprise-python feature-augmentation upsampling
Language:Python 6
mohammedjasam / K-Means-Clustering
Script which creates clusters using K-Means Clustering Algorithm with different similarity metrics.
kmeans kmeans-clustering cosine-similarity jaccard-similarity euclidean tkinter tkinter-graphic-interface sum-of-squared-error
Language:Python 6
ppw0 / minhash
find similar text files quickly
minhash python jaccard-similarity mining-massive-datasets
Language:Python 6
TSunny007 / Document-Similarity
Using Jaccard-Similarity and Minhashing to determine similarity between two text documents
jaccard-similarity duplicates jupyter-notebook minhash document-similarity
Language:Jupyter Notebook 6
usc-isi-i2 / ppjoin
PPJoin and P4Join Python 3 implementation
ppjoin p4join string-similarity join pper privacy-preserving-record-linkage jaccard jaccard-similarity recordlinkage deduplication
Language:Python 6
NikosMav / DataAnalysis-Netflix
A notebook for movie and TV show recommendations using Boolean and TF-IDF methods. Get personalized suggestions based on text descriptions and choose the method that suits your preferences.
ai-techniques data-analysis data-visualization netflix-dataset neural-networks recommendation-system boolean-method content-based-recommendation cosine-similarity jaccard-similarity nlp tf-idf-method
Language:Jupyter Notebook 5

jaccard-similarity

ekzhu / datasketch

adrg / strutil

matiskay / html-similarity

Jingnan-Jia / segmentation_metrics

chrismattmann / tika-similarity

vickumar1981 / stringdistance

andrewmcloud / consimilo

MrPowers / spark-stringmetric

dynatrace-research / set-sketch-paper

mrkkrp / text-metrics

oertl / probminhash

Pooja-Bhojwani / linked-eed

oertl / bagminhash

lgautier / mashing-pumpkins

chanddu / Sentence-similarity-based-on-Semantic-nets-and-Corpus-Statistics-

EdDuarte / similarity-search-java

emarkou / Text-Similarity

italo-batista / lsh-semantic-similarity

tmpsrcrepo / benchmark_minhash_lsh

zhangcong-zc / Text_Matching

ada-k / TweetsClassification

oertl / treeminhash

sumn2u / string-comparisons

581-pooja / CheckMyAnswer

NamrataThakur / Social-Network-Link-Prediction

SasheVuchkov / near-duplicate-docs

Sitaras / Data-Mining

anshul1004 / TweetsClustering

deepampatel / SimNode-Zomato-graph

vokter / vokter

artisan1218 / Recommendation-System

mohammedjasam / K-Means-Clustering

ppw0 / minhash

TSunny007 / Document-Similarity

usc-isi-i2 / ppjoin

NikosMav / DataAnalysis-Netflix