¿Necesitan ayuda/manos?

Question

¿Necesitan ayuda/manos?

mrbungie opened this issue 5 years ago · comments

Estoy buscando implementar algún modelo transformador (Bert o algún otro), pero no he encontrado nada single-language, al parecer la única opción es hacer el pretraining a mano.

¿Han logrado hacer algo?, y además, ¿les serviría apoyo?

Jorge · Answer 1 · Sat Aug 31 2019 06:49:32 GMT+0800 (China Standard Time)

Hola! Gracias por el ofrecimiento. Ya tenemos una versión pre-entrenada de BERT con solo español y estamos evaluándola para hacer release muy pronto. Veremos si hay alguna tarea específica para pedirte ayuda. Tienes alguna tarea en la que quieras/puedas probar BERT?

Saludos

Germán Oviedo · Answer 2 · Sun Sep 01 2019 22:13:45 GMT+0800 (China Standard Time)

Buena, excelente!. Algunas tareas que quiero utilizar con esto, en orden de importancia:

Vectorización y clasificación "clásica" de sentencias/documentos.
Text summarization
Question Answering

Bueno, si hay algo en lo que pueda aportar, no duden en avisar.
Gracias!

José Cañete · Answer 3 · Mon Sep 02 2019 10:42:58 GMT+0800 (China Standard Time)

Son problemas interesantes, sería bueno saber si has probado BERT Multilingual en ellos o tienes un baseline al que quieras mejorar con un transformer en Español.

Saludos!

Germán Oviedo · Answer 4 · Tue Sep 03 2019 00:45:55 GMT+0800 (China Standard Time)

Tenemos baselines en modelos simples semisupervisados basados en conteos (weighting y dimreduct no supervisados; y clasificación supervisada) para el primer problema, más que nada porque no tenemos suficiente data taggeada para modelos secuenciales.

De todas formas, podriamos usar Bert multilingual y publicar los resultados (ademas de los anteriores) si les sirven de benchmark. La data es sensible eso si, por lo que solo podriamos mostrar resultados.

PS: Para el tercer problema podríamos derivar algunas métricas en base a logs que tenemos, pero eso es más far-fetched, y similarmente a lo anterior, solo podríamos entregar las métricas.

Saludos!

José Cañete · Answer 5 · Tue Oct 22 2019 01:32:10 GMT+0800 (China Standard Time)

Hola @mrbungie,

Ya subimos una primera versión del modelo (la uncased), estamos trabajando para entrenar también una cased y mejorar el repo.
Voy a cerrar el issue mientras tanto, si tienes dudas o algún aporte siéntete libre de crear uno nuevo o hacer un PR.

Saludos!

Germán Oviedo · Answer 6 · Sun Nov 10 2019 02:02:57 GMT+0800 (China Standard Time)

Excelente! Muchas gracias por este aporte a la comunida. Consulta, que tokenizer usaron? bert-uncased-large, bert-uncased-base o uno propio de uds?

José Cañete · Answer 7 · Sun Nov 10 2019 03:09:21 GMT+0800 (China Standard Time)

El tokenizer es BPE al igual que en el BERT original. Fue construido por nosotros en base al corpus de entrenamiento, puedes mirar el vocabulario en el archivo vocab.

En cuanto al tamaño del modelo, es el BASE (12 layers), puedes ver los detalles en el archivo config. Eso es importante! voy a arreglar el repo para que quede claro que ese es el modelo.

Gracias! Avisanos cualquier duda :)

Germán Oviedo · Answer 8 · Sun Nov 10 2019 03:40:19 GMT+0800 (China Standard Time)

Muchas gracias Jose!, saludos.

PS: Sorry por las faltas ortograficas, estoy sin teclado en espaniol.