Este repositório consiste na implementação de um Locality Sensitive Hashing, baseado no artigo Minmax Circular Sector Arc for External Plagiarism’s Heuristic Retrieval stage.
- Tokenização
- Cada documento é parseado como um set de termos
- Gerar uma matriz (binária?) na qual cada coluna corresponde a um subset e cada linha corresponde a um termo do vocabulário.
- Geração de fingerprint
- Mapeia cada termo para um inteiro não-negativo, o que gera a sequência L
- Permutação de feature
- Permutar a sequência L (randomicamente reordenar L)
- Seleção de aplicação de função
- Avaliação da similaridade