ulvivl / hse22_project

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

hse22_project


Ссылки

  1. Условие
  2. Colab с кодом

Выбранные геномы

Вид Уровень сборки GC% Название в colab
Leishmania donovani Chromosome 59,1146 GCA_00022713
Leishmania enriettii Chromosome 59,5865 GCA_017916305
Leishmania infantum JPCM5 Chromosome 59,5663 GCA_000002875
Leishmania martiniquensis Chromosome 59,8521 GCA_017916325
Leishmania panamensis Chromosome 57,3879 GCA_000755165

Анализируем аннотированные гены

Поскольку я работала с эукариотами, то в таблице ниже представлены число генов, длина генома, длина участков с экзонами, доля покрытия экзонами.

Название вида Число генов Длина генома Длина участков с экзонами Доля покрытия экзонами
donovani 8195 32444968 14824824 45.7
enriettii 8353 33318864 15840130 47.5
infantum JPCM5 8383 32122061 15607169 48.6
martiniquensis 7967 32413670 14791807 45.6
panamensis 8048 30688794 14547601 47.4

Предсказываем участки Z-DNA

В данном пункте было произведено предсказание участков Z-DNA с помощью программы zhunt. Далее были отобраны только те участки Z-DNA, у которых zh-score больше 500. По полученным данным были посчитаны некоторые показатели. Ниже представлены результаты для каждого генома.

Название вида Количество предсказанных Z-DNA Количество участков с zh-score > 500 Общая длина участков
donovani 283432 9151 99396
enriettii 263205 8728 94900
infantum JPCM5 277951 9051 98310
martiniquensis 241723 6741 72132
panamensis 268611 5617 60450

Гистограммы распределений

Название вида Гистограмма
donovani
enriettii
infantum JPCM5
martiniquensis
panamensis

Ассоциируем предсказанные участки Z-DNA с промотерами генов

Визуализация генов и предсказанных участков Z-DNA с помощью GraphicFeature, GraphicRecord

На картинках ниже изображено по одной Z-DNA, находящейся на промотере гена для 3 генов из генома

Название вида Визуализация
donovani
enriettii
infantum JPCM5
martiniquensis
panamensis

Визуализация генов и предсказанных участков Z-DNA с помощью IGV

Название вида Визуализация
donovani
enriettii
infantum JPCM5
martiniquensis
panamensis

Определяем гомологичные связи между белками выбранных геномов

Данный этап был выполнен в jupyter notebook, находящийся в папке src, так как там он выполнялся гораздо быстрее, чем в colab.

Информация по полученным гомологичным кластерам

Общее число кластеров: 8114

Гистограмма кластеров по кол-ву разных геномов в кластере

image

Таблица с информацией по выбранным кластерам

Я выбирала такие кластеры, чтобы и в столбце # Speciуs и в столбце Genes было одно и тоже число 5, так как всего мы рассматриваем 5 геномов. Получается что я буду рассматривать кластеры, в которых находится по одному гену из генома, то есть всего 5 генов.

Номер кластера Название вида product_accession Имя Функция гена Ссылка на источник
0 donovani CBZ36062.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
0 enriettii KAG5473030.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
0 infantum JPCM5 CAM69935.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
0 martiniquensis KAG5472261.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
0 panamensis AIO00276.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
1 donovani CBZ31255.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
1 enriettii KAG5486925.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
1 infantum JPCM5 CBZ08318.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
1 martiniquensis KAG5487692.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
1 panamensis AIN95248.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
2 donovani CBZ31885.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
2 enriettii KAG5485099.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
2 infantum JPCM5 CBZ08369.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
2 martiniquensis KAG5485768.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
2 panamensis AIN95850.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
3 donovani CBZ33322.1 serine/threonine protein phosphatase type 5, putative Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов https://www.uniprot.org/uniprot/P53042
3 enriettii KAG5481624.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
3 infantum JPCM5 CAM67068.1 putative serine/threonine protein phosphatase type 5 Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов https://www.uniprot.org/uniprot/P53042
3 martiniquensis KAG5480985.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
3 panamensis AIN97196.1 serine/threonine protein phosphatase type 5, putative Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов https://www.uniprot.org/uniprot/P53042
4 donovani CBZ32552.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
4 enriettii KAG5483451.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
4 infantum JPCM5 CAM66459.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
4 martiniquensis KAG5484026.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
4 panamensis AIN96482.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
5 donovani CBZ31279.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
5 enriettii KAG5486948.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
5 infantum JPCM5 CAM60013.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
5 martiniquensis KAG5487716.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
5 panamensis AIN95270.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
6 donovani CBZ36459.1 mevalonate kinase, putative катализирует превращение мевалоната в фосфомевалонат https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase
6 enriettii KAG5471934.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
6 infantum JPCM5 CAM70439.1 putative mevalonate kinase катализирует превращение мевалоната в фосфомевалонат https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase
6 martiniquensis KAG5471283.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
6 panamensis AIO00643.1 mevalonate kinase, putative катализирует превращение мевалоната в фосфомевалонат https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase
7 donovani CBZ33319.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
7 enriettii KAG5481621.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
7 infantum JPCM5 CAM67065.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
7 martiniquensis KAG5480982.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
7 panamensis AIN97193.1 ARF-like 2-binding protein, putative активацию ферментов, таких как фосфатидилинозитол (PtdIns) киназы https://www.nature.com/articles/nrm3117
8 donovani CBZ33031.1 hypothetical protein, conserved функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
8 enriettii KAG5482503.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
8 infantum JPCM5 CAM66930.1 conserved hypothetical protein функционально не охарактеризован https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/
8 martiniquensis KAG5481974.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
8 panamensis AIN96925.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
9 donovani CBZ36064.1 WD-40 repeat protein участвуют в росте, клеточном цикле, развитии и вирулентности https://link.springer.com/article/10.1007/s10930-018-9785-7
9 enriettii KAG5473032.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
9 infantum JPCM5 CAM69937.1 WD-40 repeat protein участвуют в росте, клеточном цикле, развитии и вирулентности https://link.springer.com/article/10.1007/s10930-018-9785-7
9 martiniquensis KAG5472263.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein
9 panamensis AIO00278.1 hypothetical protein определение функции затруднено https://en.wikipedia.org/wiki/Hypothetical_protein

Про расположение Z-DNA и Z-DNA score легче на рисунке показать, который будет представлен ниже.

Множественное белковое выравнивание

Для каждого выбранного кластера было произведено множественное белоковое выравнивание на сайте https://www.ebi.ac.uk/Tools/msa/clustalo/ . В качестве алгоритма для выравнивания был выбран алгоритм ClustalW with character counts. Файлы с выравниванием можно найти в папке data.

Визуализация расположения участков Z-DNA для каждого выбранного кластера

Номер кластера Название вида Визуализация
0 donovani image
0 enriettii image
0 infantum JPCM5 image
0 martiniquensis image
0 panamensis image
1 donovani image
1 enriettii image
1 infantum JPCM5 image
1 martiniquensis image
1 panamensis image
2 donovani image
2 enriettii image
2 infantum JPCM5 image
2 martiniquensis image
2 panamensis image
3 donovani image
3 enriettii image
3 infantum JPCM5 image
3 martiniquensis image
3 panamensis image
4 donovani image
4 enriettii image
4 infantum JPCM5 image
4 martiniquensis image
4 panamensis image
5 donovani image
5 enriettii image
5 infantum JPCM5 image
5 martiniquensis image
5 panamensis image
6 donovani image
6 enriettii image
6 infantum JPCM5 image
6 martiniquensis image
6 panamensis image
7 donovani image
7 enriettii image
7 infantum JPCM5 image
7 martiniquensis На данный ген не попали Z-DNA
7 panamensis image
8 donovani image
8 enriettii image
8 infantum JPCM5 image
8 martiniquensis image
8 panamensis image
9 donovani image
9 enriettii image
9 infantum JPCM5 image
9 martiniquensis image
9 panamensis image

На каждом рисунке выше отрисован ген из генома, попадающий в соотвествующий кластер. На каждом гене, отрисованы все z-dna с их zh-score. Такая визуализация помогает увидеть где именно находится участок z-dna относительно гена. Каждый ген подписан по следующему принципу: gene + LOCUS(из файла gbff), где LOCUS отвечает за то, к какому геному принадлежит ген. Из визуализации и координат можно заметить, что во многих случаях z-dna попадает на экзон интрон и промоутер, за исключением следующих случаев:

Номер кластера Название вида Куда попадает
1 enriettii промоутер и интрон
1 panamensis промоутер и интрон
3 panamensis промоутер и интрон
5 enriettii промоутер и интрон
5 infantum JPCM5 промоутер и интрон
5 martiniquensis промоутер и интрон
5 panamensis промоутер и интрон
6 panamensis промоутер и интрон
7 donovani интрон
7 enriettii интрон
7 martiniquensis На данный ген не попали Z-DNA
7 panamensis промоутер и интрон
9 panamensis промоутер и интрон

About


Languages

Language:Jupyter Notebook 100.0%