Analisar os documentos produzidos pelo Estado Americano sobre Defesa Nacional, a fim de ver se há alguma correlação entre a quantidade de vezes que os termos relativos a cyber security aparecem é proporcional ao gastos publicos no mesmo setor.
- Leitura de todos os documentos .pdf disponíveis.
- Análise de conjunto completo de todos os documentos, fazendo contagem de palavras, bigramas e trigramas, plotando essa frequência e suas WordClouds.
- Função relatório para 1 ano que é especificado como parâmetro na função. O relatório devolve um Pandas DataFrame com a incidência de cada palavra em ordem decrescente, a sua porcentagem frente as outras palavras e uma WordCloud que já é salva automaticamente na pasta raiz discriminando o ano.
- Fazer Lemmatização nas palavras
- Plotar a frequência numa linha do tempo.
- Aprimorar função de relatório anual que também trabalhe com bigramas e trigramas.
- Comparar a análise de outros temas estratégicos como assuntos nucleares, espaciais etc.