document-similarity

There are 18 repositories under document-similarity topic.

gensim
piskvorky / gensim
Topic Modelling for Humans
gensim topic-modeling information-retrieval machine-learning natural-language-processing nlp data-science python data-mining word2vec word-embeddings neural-network document-similarity word-similarity fasttext
Language:Python 16186
oborchers / Fast_Sentence_Embeddings
Compute Sentence Embeddings Fast!
sentence-embeddings sentence-representation sentence-similarity document-similarity usif sif wordembedding gensim gensim-model word2vec-model fasttext cython embeddings maxpooling fse swem
Language:Jupyter Notebook 622
abhilampard / Simple-Plagiarism-Checker
Web Application for checking the similarity between query and document using the concept of Cosine Similarity.
plagiarism-checker plagiarism-detection cosine-similarity python-flask python-project document-similarity flask
Language:Python 100
IlyaGusev / tgcontest
Telegram Data Clustering contest solution by Mindful Squirrel
classification clustering cpp data-science document-similarity fasttext machine-learning nlp
Language:HTML 96
massanishi / document_similarity_algorithms_experiments
Document similarity algorithms experiment - Jaccard, TF-IDF, Doc2vec, USE, and BERT.
tf-idf jaccard algorithm universal-sentence-encoder bert document-similarity new-york-times deep-learning
Language:Python 85
Intelligent_Document_Finder
Sarthakjain1206 / Intelligent_Document_Finder
Document Search Engine Tool
search-engine search-algorithm ranking-algorithm indexer reverse-index document-summarization document-similarity latent-dirichlet-allocation text-summarization spellchecker webcrawler scrapy scrapy-spider wikipedia-search wikipedia-crawler bm25
Language:Python 73
andrewmcloud / consimilo
A Clojure library for querying large data-sets on similarity
minhash-lsh-algorithm minhash clojure lsh lsh-forest data-sketching data-sketches similarity similarity-search jaccard-similarity cosine-distance hamming-distance plagiarism-detection recommender-system collaborative-filtering document-similarity
Language:Clojure 63
zayedrais / DocumentSearchEngine
Document Search Engine project with TF-IDF abd Google universal sentence encoder model
data-science deep-learning document-search document-similarity juypter machine-learning python python-text-analysis semantic-search semantic-search-engine tensorflow tensorflow-models tensorflow-tutorials text-analysis text-search text-semantic-similarity tfidf tfidf-text-analysis tfidf-vectorizer universal-sentence-encoder
Language:Jupyter Notebook 53
allenai / aspire
Repo for Aspire - A scientific document similarity model based on matching fine-grained aspects of scientific papers.
document-similarity information-retrieval machine-learning natural-language-processing
Language:Python 51
meenavyas / Misc
Contains interesting projects like Cat face detection, cat face recognition, code generation, Building chatbot, finding similar documents, image segmentation, UCI credit card, anomaly detection, MNIST etc.
machine-learning deep-neural-networks document-similarity spark tensorflow anomaly-detection chatbot code-generation differential-privacy face-detection face-recognition image-segmentation mnist object-detection finding-similar-documents uci-credit-card
Language:Jupyter Notebook 23
shrebox / Natural-Language-Processing
Compilation of Natural Language Processing (NLP) codes. BONUS: Link to Information Retrieval (IR) codes compilation. (checkout the readme)
edit-distance regex generative-model discriminative-model hmm-viterbi-algorithm nlp-tools word2vec doc2vec pos-tagging ner spacy word-similarity document-similarity hidden-markov-models
Language:Python 13
parvez86 / Smart-Recruitment-System
A simple Django-based resume ranker website where recruiters post their jobs and candidates applies for their desired vacancies. The system gets the document similarity between the job description and the candidate resumes, generates similarity scores using the KNN model, and rank or shortlist the candidate resumes.
django document-similarity knn machine-learning nlp-machine-learning nltk resume-ranking scikit-learn tf-idf-vectorizer web-application
Language:HTML 12
Sarthakjain1206 / Intelligent-Document-Finder
A tool which can find your any document using semantic search
semantic-search python search-engine natural-language-processing web-scraping database pos-tagging rank-bm25 relevant-search document-similarity sqlite-database pandas
Language:Python 8
nicoDs96 / Document-Similarity-using-Python-and-PySpark
Document Similarity with Apache Spark using Locality Sesitive Hashing and Python
document-similarity locality-sensitive-hashing lsh pyspark python
Language:Jupyter Notebook 7
TSunny007 / Document-Similarity
Using Jaccard-Similarity and Minhashing to determine similarity between two text documents
jaccard-similarity duplicates jupyter-notebook minhash document-similarity
Language:Jupyter Notebook 6
malteos / wikipedia-article-recommendations
Survey data and Python code for the ICADL 2021 paper "A Qualitative Evaluation of User Preference for Link-based vs. Text-based Recommendations of Wikipedia Articles"
citolytics cpa document-similarity morelikethis qualitative-evaluation recommender-systems wikipedia
Language:Jupyter Notebook 5
mdietrichstein / ir-search-engine-rust
Rust-based text search engine from scratch supporting multiple document similarity metrics (TF-IDF, BM25, BM25VA)
document-search document-similarity information-retrieval nlp rust search search-engine
Language:Rust 5
maxoodf / tgnews
Telegram Data Clustering Contest (Bossy Gnu's submission )
cpp nlp nlp-machine-learning word2vec document-embedding document-clustering document-similarity telegram
Language:C++ 4
izikeros / sentence-plagiarism
Compare sentences from input document with all sentences from reference documents - find very similar ones.
document-similarity jaccard-similarity nlp plagiarism-checker plagiarism-detection sentence-similarity text-similarity
Language:Python 3
mohammaduzair9 / Document-Searching
Document searching from queries using Inverted index
python document-similarity search doc2vec document-searching inverted-index
Language:Python 3
tejaspradhan / AI-based-Hiring-Platform
A Two-ended Hiring web application built using flask. The application uses document similarity techniques for recommendation.
natural-language-processing flask mongodb document-similarity jobsearch nltk-python
Language:HTML 3
574567254 / Job_Searching_Analysis
Aims to provide job searching strategy for new graduates who are interested in data-related positions.
analysis data-analysis document-similarity heatmaps text-mining webscraping wordcloud strategy
Language:Jupyter Notebook 2
Bit-Nation / notary
The Bitnation Jurisdiction Public Notary DApp
document-similarity notary solidity timestamping
Language:JavaScript 2
blazingeagle1002 / DocumentSimilarity
document-similarity gensim-doc2vec topic-modeling lda infersent tf-idf
Language:Python 2
MSVCode / doc-similarity
Simple document similarity module implemented in NodeJS
cosine document document-similarity nodejs similarity-measures
Language:JavaScript 2
nunososorio / docxmatch
DocxMatch is a Streamlit app that analyzes the similarity between Word files.
cosine-similarity creative-commons document-clustering document-similarity efficient-algorithms file-management matplotlib pandas plagiarism-detection python-docx scikit-learn similarity-analysis streamlit tf-idf content-comparison document-organization duplicate-content-detection word-docs
Language:Python 2
shreyansh26 / MinHash-Implemenation
A simple MinHash implementation based on the explanation in the Mining of Massive Datasets course by Stanford
document-similarity minhash minhash-similarity plagiarism-detection
Language:Python 2
topcat / pubmed-docsim
Code to train a LSI model using Pubmed OA medical documents and to use pre-trained Pubmed models on your own corpus for document similarity.
natural-language-processing document-similarity topic-modelling pubmed medical-information latent-semantic-analysis python
Language:Python 2
DrKenReid / Generalized-Analysis-of-Text-Data
A comprehensive toolkit for analyzing text data using various AI and NLP techniques, including topic modeling, sentiment analysis, and text classification, demonstrated on the 20 Newsgroups dataset.
artificial-intelligence dependency-parser document-similarity exploratory-data-analysis natural-language-processing network-visualization newsgroups nlp sentiment-analysis text-classification text-clustering text-summarization topic-modeling word-embeddings
Language:Jupyter Notebook 1
Forthoney / doc_sim
Approximate document similarity with Minhash + Locality Sensitive Hashing
document-similarity locality-sensitive-hashing minhash
Language:Ruby 1
johnifegwu / natural-language-processing
Natural language processing examples and automations
distributed-computing document-similarity machine-learning text-preprocessing topic-modeling word-embedding corpus-streaming automation crawlers
Language:Jupyter Notebook 1
JPWJPW25 / 7-789-1.00_Advanced-Programming_Python
Individual group project in Python
cosine-similarity pdfconverter wordconverter word2txt pdf2txt document-similarity heatmap triangle-heatmap
Language:Python 1
omarabdelaz1z / Inverted-Index-and-Document-Similarity
cosine-similarity document-similarity information-retrieval inverted-index linked-list posting-list preprocessing python
Language:Python 1
PolunLin / doc_similiarty
document-similarity jupyter-notebook natural-language-processing
Language:HTML 1
NLP
priyanka-ddit / NLP
This repository will demonstrate how to explore spiritual world using NLP techniques like, sentiment analysis, topic modeling, information retrieval and text summarization.
sentime topic-modeling text-summarization information-retrieval document-similarity text-analysis nlp data-cleaning
Language:Jupyter Notebook 1
Siddhantmest / Categorizing-amazon-products
Classifying products into categories using NLP techniques
nlp cosine-similarity document-similarity keyword-extraction latent-dirichlet-allocation linear-discriminant-analysis
Language:Jupyter Notebook 1

document-similarity

piskvorky / gensim

oborchers / Fast_Sentence_Embeddings

abhilampard / Simple-Plagiarism-Checker

IlyaGusev / tgcontest

massanishi / document_similarity_algorithms_experiments

Sarthakjain1206 / Intelligent_Document_Finder

andrewmcloud / consimilo

zayedrais / DocumentSearchEngine

allenai / aspire

meenavyas / Misc

shrebox / Natural-Language-Processing

parvez86 / Smart-Recruitment-System

Sarthakjain1206 / Intelligent-Document-Finder

nicoDs96 / Document-Similarity-using-Python-and-PySpark

TSunny007 / Document-Similarity

malteos / wikipedia-article-recommendations

mdietrichstein / ir-search-engine-rust

maxoodf / tgnews

izikeros / sentence-plagiarism

mohammaduzair9 / Document-Searching

tejaspradhan / AI-based-Hiring-Platform

574567254 / Job_Searching_Analysis

Bit-Nation / notary

blazingeagle1002 / DocumentSimilarity

MSVCode / doc-similarity

nunososorio / docxmatch

shreyansh26 / MinHash-Implemenation

topcat / pubmed-docsim

DrKenReid / Generalized-Analysis-of-Text-Data

Forthoney / doc_sim

johnifegwu / natural-language-processing

JPWJPW25 / 7-789-1.00_Advanced-Programming_Python

omarabdelaz1z / Inverted-Index-and-Document-Similarity

PolunLin / doc_similiarty

priyanka-ddit / NLP

Siddhantmest / Categorizing-amazon-products