dccuchile / spanish-word-embeddings

Spanish word embeddings computed with different methods and from different corpora

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

word frecuencies

diegovalenzuelaiturra opened this issue · comments

Hola,

Sería genial si pudieran publicar los diccionarios con las frecuencias en las que aparece cada token del vocabulario en el corpus original ?

Muchas gracias :)

commented

Hola @diegovalenzuelaiturra trataremos de publicarlos. De todas maneras, los vocabularios y frecuencias puedes obtenerlos desde los repositorios de los corpus mismos. Si lo haces antes que nosotros y nos haces un pull request, los agregamos ;-)

Saludos

Hola @jorgeperezrojas y @diegovalenzuelaiturra,

Hay una forma fácil de obtenerlas al menos para los modelos de FastText en Python:

import fasttext
model = fasttext.load_model("embeddings-xs-model.bin")
palabras, frecuencias = model.get_words(include_freq=True)

Pd: puedo hacer un PR con las frecuencias, en que formato te acomoda dejarlas y donde @jorgeperezrojas ?