word frecuencies
diegovalenzuelaiturra opened this issue · comments
Hola,
Sería genial si pudieran publicar los diccionarios con las frecuencias en las que aparece cada token del vocabulario en el corpus original ?
Muchas gracias :)
Hola @diegovalenzuelaiturra trataremos de publicarlos. De todas maneras, los vocabularios y frecuencias puedes obtenerlos desde los repositorios de los corpus mismos. Si lo haces antes que nosotros y nos haces un pull request, los agregamos ;-)
Saludos
Hola @jorgeperezrojas y @diegovalenzuelaiturra,
Hay una forma fácil de obtenerlas al menos para los modelos de FastText en Python:
import fasttext
model = fasttext.load_model("embeddings-xs-model.bin")
palabras, frecuencias = model.get_words(include_freq=True)
Pd: puedo hacer un PR con las frecuencias, en que formato te acomoda dejarlas y donde @jorgeperezrojas ?