dccuchile / spanish-word-embeddings

Spanish word embeddings computed with different methods and from different corpora

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Orden de los embeddings

jgmontoya opened this issue · comments

Hola,

Los vectores se encuentran ordenados por frecuencia?

Esto es útil para que al hacer por ejemplo:

wordvectors_file_vec = 'fasttext-sbwc.3.6.e20.vec'
num_of_vectors = 50000
wordvectors = KeyedVectors.load_word2vec_format(wordvectors_file_vec, limit=num_of_vectors)

Los (por ejemplo) 50.000 vectores que se carguen sean los más frecuentes (y por ende posiblemente los más relevantes).

Saludos!

Hola @jgmontoya,

Los primeros, entrenados en SUC con FastText, están en orden decreciente de frecuencia.

Saludos!

Bueno saberlo, gracias!