omatheuspimenta / epb2022

Repositório destinado ao curso "Extração de características e classificação de sequências de RNAs" da III Escola Paranaense de Bioinformática.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

EPB

III Escola Paranaense de Bioinformática

Curso: Extração de características e classificação de sequências de RNAs

Descrição:

Nos últimos anos, devido ao surgimento de sequenciadores de alta performance, ocorreu um grande avanço no volume de dados de DNA e RNA. Isso fez com que as ciências “ômicas” entrassem na era do “BIG Data” ou “e-Science”. Atualmente, um enorme volume dados estão disponíveis para análises genômicas (de DNA) e transcriptômicas (de RNA) com aplicações diversas em áreas de conhecimento como melhoramento genético, fitopatologia e fisiologia vegetal. Trabalhos de Associação e/ou Seleção Genômica, transformação genética ou edição genômica, rastreamento e certificação, vem a cada dia utilizando mais e mais as informações “omicas” que despertam novas estratégias, inovadoras e precisas em pesquisa. Entretanto as ferramentas de análise desses dados "ômicos" ainda carecem de uma maior atenção, sendo necessário o desenvolvimento de métodos computacionais que possam selecionar, extrair e classificar as informações para a descoberta de conhecimento. Este curso irá apresentar este contexto e aplicação do método BASiNET que diferente de vários programas baseados em métodos de alinhamento de sequências, essa metodologia é baseada em modelos de reconhecimento de padrões e extração de características por meio de redes complexas para melhor sintetizar e selecionar as informações relevantes contidas nos dados de RNA-seq. Utiliza o princípio de machine learning, no qual o método, através de um set inicial de dados aprende automaticamente a reconhecer padrões de RNAs e usa esse aprendizado para melhorar a análise e o reconhecimento das carcaterísticas que identificam a classe a que pertence a sequência. Isso permite que tenhamos informações com uma maior precisão e acurácia dos dados gerados, como indicado no artigo publicado na revista Nucleic Acids Research (Ito et al. 2019 doi: 10.1093/nar/gky462). O BASiNET apresentou uma assertividade superior a outros programas na identificação e classificação de RNAs (codantes e não codantes) em dados de 13 espécies diferentes, incluindo plantas e animais. Algumas análises comparativas a performance foi superior a 10% na identificação de RNAs. Portanto a utilização do método representa um importante avanço na análise de dados de RNA, auxiliando trabalhos de transcriptoma para identificação de novos genes, análise de expressão gênica, identificação de regiões codantes e não codantes e por consequência estudos epigenéticos. Outro fator importante é a abrangência do método, podendo ser aplicado tanto em dados de RNA de animais como de vegetais. O método BASiNET é de livre acesso estando disponível a todos interessados no site do CRAN.


Conteúdo programático

08/08/2022 - slides

  • Apresentação dos conceitos de extração de características de RNA;
  • Apresentação do método BASiNET;
  • Hands on! Instalação e classificação de sequências biológicas utilizando o pacote BASiNET.

09/08/2022 - slides

  • Avanços na extração de características de RNA;
  • Apresentação do método BASiNETEntropy;
  • Hands on! Instalação e classificação de sequências biológicas utilizando o pacote BASiNETEntropy.

10/08/2022

  • Aplicação dos conceitos de classificação de sequências biológicas;
  • Avaliação de outros métodos de extração de características e classificação de sequências biológicas.

Tutoriais


Métodos

Abaixo alguns métodos disponíveis para a classificação de RNA. Sinta-se livre para utilizá-los e complementar essa lista com novos métodos 😄 .

  • BASiNET: Método disponível para a classificação de sequências biológicas. Disponível para a classificação de RNA codificantes, não-codificantes longos e curtos. Disponível no CRAN: https://cran.r-project.org/web/packages/BASiNET/. Tutorial de instalação e uso disponível em /tutorials/install_basinet.md.
  • BASiNETEntropy: Método disponível para a classificação de sequências biológicas. Disponível para a classificação de RNA codificantes, não-codificantes longos e curtos. Disponível no CRAN: https://cran.r-project.org/web/packages/BASiNETEntropy. Tutorial de instalação e uso disponível em /tutorials/install_basinetentropy.md.
  • RNAcon: Método disponível para a classificação de RNA codificante e não-codificante. Além da classificação binária, é possível classificar o tipo de RNA pequeno não codificante. As características selecionadas para o classificador SVM são referentes a composição dos nucleotideos. Disponível em /methods/RNAcon/. Execução direta utilizando o guia de uso disponível no arquivo.
  • PLEK: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador SVM são referentes ao k-mers. Disponível para download em: https://sourceforge.net/projects/plek/files/. Tutorial para uso e instalação disponível em: http://202.200.112.245/plek/installation.html.
    Etapa de treinamento pode levar tempo, segundo autores
  • CPC2: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador SVM são referentes a ORF (tamanho e integridade). Documentação e download disponível em: http://cpc2.gao-lab.org/download.php. Uma versão também está disponível em /methods/CPC2/.
  • CPPred: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador SVM são referentes a ORF (tamanho, cobertura e integridade). Documentação e download disponível em: http://www.rnabinding.com/CPPred/. Uma versão também está disponível em /methods/CPPred/.
  • lncFinder: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador SVM são referentes a ORF (tamanho e cobertura). Disponível no CRAN: https://cran.r-project.org/web/packages/LncFinder/. Possui etapa de treinamento através da função build_model.
  • CNIT: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador XGBoost são referentes as triplas de nucleotideos adjacentes. Documentação e download disponível em: http://cnit.noncode.org/CNIT/download. Uma versão também está disponível em /methods/CNIT/.
  • Lncident: Método disponível para a classificação de RNA codificante e não-codificante. As características selecionadas para o classificador SVM são referentes a ORF (tamanho e cobertura). Documentação e download disponível em: http://csbl.bmb.uga.edu/mirrors/JLU/Lncident/index.php. Uma versão também está disponível em /methods/Lncident/.

Datasets

Lista de presença

Formulário do Google

Autores

Fabrício Martins Lopes
Matheus Pimenta

About

Repositório destinado ao curso "Extração de características e classificação de sequências de RNAs" da III Escola Paranaense de Bioinformática.