fargolo / fernando-pessoa

Classificador de poemas do Fernando Pessoa de acordo com os seus heterônimos

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Classificador de Poemas do Fernando Pessoa

Binder

Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.

Pré-requisitos

Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.

Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:

pip install -r requirements.txt

Guia de Uso

Extração de Dados

Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:

id autor titulo tipo texto data bibliografia
4 Ricardo Reis Diana através dos ramos poesia Diana através dos ramos
Espreita a vinda de Endymion...
16-6-1914 Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de...
5 Fernando Pessoa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS prosa A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS... 10-3-1933 Páginas de Pensamento Político. Vol II. Fernando Pessoa...

Para rodar o scraper, basta executar:

scrapy crawl ArquivoPessoa -o fernando_pessoa.csv

Análise de Dados

A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.

Créditos

Esse projeto depende das seguintes bibliotecas:

Além disso, a análise de dados foi feita em jupyter notebooks.

Autores

Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:

Licença

Distribuído sob a licença MIT. Veja LICENSE para mais informações.

About

Classificador de poemas do Fernando Pessoa de acordo com os seus heterônimos

License:MIT License


Languages

Language:Jupyter Notebook 95.9%Language:Python 4.1%