Processamento de Linguagem Natural para Reconhecimento de Medicamentos

Este repositório contém o código de um projeto para identificar medicamentos em anotações clínicas.

O modelo usa a biblioteca Transformers, começando com o modelo pré-treinado BERTimbau. Finalmente, o refinamento é realizado em um corpus de notas clínicas anotadas (anotadas usando doccano).

Execução

O refinamento pode ser realizado através do script finetune usando o terminal. Este script assume que os dados são um arquivo JSONL de texto anotado exportado do doccano (--datafile example.jsonl), ou um conjunto de dados HuggingFace salvo.

Se você executar este script uma vez em um arquivo JSONL de anotações, poderá optar por salvar o conjunto de dados em uma pasta (--save_data_dir "save_path") e usá-lo para execuções de treinamento subsequentes (--datafile "save_path").

Para o acompanhamento de experimentos, usamos o Weights and Biases. Você poderá optar habilitar usando o parâmetro (--wandb_on).

  python .\finetune.py --folds 5 --epochs 15 --lr 5e-5 --wandb_on --hub_off 
  --project 'Example Project' --run_name cross-validation --datafile example.jsonl

Como usar o modelo a partir da biblioteca 🤗/transformers

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("giggio/FarBrBERT-base")

model = AutoModelForTokenClassification.from_pretrained("giggio/FarBrBERT-base")

About

Código-fonte desenvolvido para implementação da parte prática referente dissertação apresentada como requisito parcial para a obtenção do grau de Mestre em Ciência da Computação.

Languages

Language:Python 100.0%