dccuchile / beto

BETO - Spanish version of the BERT model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

¿Necesitan ayuda/manos?

mrbungie opened this issue · comments

Estoy buscando implementar algún modelo transformador (Bert o algún otro), pero no he encontrado nada single-language, al parecer la única opción es hacer el pretraining a mano.

¿Han logrado hacer algo?, y además, ¿les serviría apoyo?

commented

Hola! Gracias por el ofrecimiento. Ya tenemos una versión pre-entrenada de BERT con solo español y estamos evaluándola para hacer release muy pronto. Veremos si hay alguna tarea específica para pedirte ayuda. Tienes alguna tarea en la que quieras/puedas probar BERT?

Saludos

Buena, excelente!. Algunas tareas que quiero utilizar con esto, en orden de importancia:

  • Vectorización y clasificación "clásica" de sentencias/documentos.
  • Text summarization
  • Question Answering

Bueno, si hay algo en lo que pueda aportar, no duden en avisar.
Gracias!

Son problemas interesantes, sería bueno saber si has probado BERT Multilingual en ellos o tienes un baseline al que quieras mejorar con un transformer en Español.

Saludos!

Tenemos baselines en modelos simples semisupervisados basados en conteos (weighting y dimreduct no supervisados; y clasificación supervisada) para el primer problema, más que nada porque no tenemos suficiente data taggeada para modelos secuenciales.

De todas formas, podriamos usar Bert multilingual y publicar los resultados (ademas de los anteriores) si les sirven de benchmark. La data es sensible eso si, por lo que solo podriamos mostrar resultados.

PS: Para el tercer problema podríamos derivar algunas métricas en base a logs que tenemos, pero eso es más far-fetched, y similarmente a lo anterior, solo podríamos entregar las métricas.

Saludos!

Hola @mrbungie,

Ya subimos una primera versión del modelo (la uncased), estamos trabajando para entrenar también una cased y mejorar el repo.
Voy a cerrar el issue mientras tanto, si tienes dudas o algún aporte siéntete libre de crear uno nuevo o hacer un PR.

Saludos!

Excelente! Muchas gracias por este aporte a la comunida. Consulta, que tokenizer usaron? bert-uncased-large, bert-uncased-base o uno propio de uds?

El tokenizer es BPE al igual que en el BERT original. Fue construido por nosotros en base al corpus de entrenamiento, puedes mirar el vocabulario en el archivo vocab.

En cuanto al tamaño del modelo, es el BASE (12 layers), puedes ver los detalles en el archivo config. Eso es importante! voy a arreglar el repo para que quede claro que ese es el modelo.

Gracias! Avisanos cualquier duda :)

Muchas gracias Jose!, saludos.

PS: Sorry por las faltas ortograficas, estoy sin teclado en espaniol.