Вид | Уровень сборки | GC% | Название в colab |
---|---|---|---|
Leishmania donovani | Chromosome | 59,1146 | GCA_00022713 |
Leishmania enriettii | Chromosome | 59,5865 | GCA_017916305 |
Leishmania infantum JPCM5 | Chromosome | 59,5663 | GCA_000002875 |
Leishmania martiniquensis | Chromosome | 59,8521 | GCA_017916325 |
Leishmania panamensis | Chromosome | 57,3879 | GCA_000755165 |
Поскольку я работала с эукариотами, то в таблице ниже представлены число генов, длина генома, длина участков с экзонами, доля покрытия экзонами.
Название вида | Число генов | Длина генома | Длина участков с экзонами | Доля покрытия экзонами |
---|---|---|---|---|
donovani | 8195 | 32444968 | 14824824 | 45.7 |
enriettii | 8353 | 33318864 | 15840130 | 47.5 |
infantum JPCM5 | 8383 | 32122061 | 15607169 | 48.6 |
martiniquensis | 7967 | 32413670 | 14791807 | 45.6 |
panamensis | 8048 | 30688794 | 14547601 | 47.4 |
В данном пункте было произведено предсказание участков Z-DNA с помощью программы zhunt. Далее были отобраны только те участки Z-DNA, у которых zh-score больше 500. По полученным данным были посчитаны некоторые показатели. Ниже представлены результаты для каждого генома.
Название вида | Количество предсказанных Z-DNA | Количество участков с zh-score > 500 | Общая длина участков |
---|---|---|---|
donovani | 283432 | 9151 | 99396 |
enriettii | 263205 | 8728 | 94900 |
infantum JPCM5 | 277951 | 9051 | 98310 |
martiniquensis | 241723 | 6741 | 72132 |
panamensis | 268611 | 5617 | 60450 |
Название вида | Гистограмма |
---|---|
donovani | |
enriettii | |
infantum JPCM5 | |
martiniquensis | |
panamensis |
На картинках ниже изображено по одной Z-DNA, находящейся на промотере гена для 3 генов из генома
Название вида | Визуализация |
---|---|
donovani | |
enriettii | |
infantum JPCM5 | |
martiniquensis | |
panamensis |
Название вида | Визуализация |
---|---|
donovani | |
enriettii | |
infantum JPCM5 | |
martiniquensis | |
panamensis |
Данный этап был выполнен в jupyter notebook, находящийся в папке src, так как там он выполнялся гораздо быстрее, чем в colab.
Общее число кластеров: 8114
Я выбирала такие кластеры, чтобы и в столбце # Speciуs
и в столбце Genes
было одно и тоже число 5, так как всего мы рассматриваем 5 геномов.
Получается что я буду рассматривать кластеры, в которых находится по одному гену из генома, то есть всего 5 генов.
Номер кластера | Название вида | product_accession | Имя | Функция гена | Ссылка на источник |
---|---|---|---|---|---|
0 | donovani | CBZ36062.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
0 | enriettii | KAG5473030.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
0 | infantum JPCM5 | CAM69935.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
0 | martiniquensis | KAG5472261.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
0 | panamensis | AIO00276.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
1 | donovani | CBZ31255.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
1 | enriettii | KAG5486925.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
1 | infantum JPCM5 | CBZ08318.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
1 | martiniquensis | KAG5487692.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
1 | panamensis | AIN95248.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
2 | donovani | CBZ31885.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
2 | enriettii | KAG5485099.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
2 | infantum JPCM5 | CBZ08369.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
2 | martiniquensis | KAG5485768.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
2 | panamensis | AIN95850.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
3 | donovani | CBZ33322.1 | serine/threonine protein phosphatase type 5, putative | Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов | https://www.uniprot.org/uniprot/P53042 |
3 | enriettii | KAG5481624.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
3 | infantum JPCM5 | CAM67068.1 | putative serine/threonine protein phosphatase type 5 | Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов | https://www.uniprot.org/uniprot/P53042 |
3 | martiniquensis | KAG5480985.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
3 | panamensis | AIN97196.1 | serine/threonine protein phosphatase type 5, putative | Играет положительную роль в адипогенезе, регулирует циркадные ритмы, может играть роль в регуляции ионных каналов | https://www.uniprot.org/uniprot/P53042 |
4 | donovani | CBZ32552.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
4 | enriettii | KAG5483451.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
4 | infantum JPCM5 | CAM66459.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
4 | martiniquensis | KAG5484026.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
4 | panamensis | AIN96482.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
5 | donovani | CBZ31279.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
5 | enriettii | KAG5486948.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
5 | infantum JPCM5 | CAM60013.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
5 | martiniquensis | KAG5487716.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
5 | panamensis | AIN95270.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
6 | donovani | CBZ36459.1 | mevalonate kinase, putative | катализирует превращение мевалоната в фосфомевалонат | https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase |
6 | enriettii | KAG5471934.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
6 | infantum JPCM5 | CAM70439.1 | putative mevalonate kinase | катализирует превращение мевалоната в фосфомевалонат | https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase |
6 | martiniquensis | KAG5471283.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
6 | panamensis | AIO00643.1 | mevalonate kinase, putative | катализирует превращение мевалоната в фосфомевалонат | https://www.sciencedirect.com/topics/neuroscience/mevalonate-kinase |
7 | donovani | CBZ33319.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
7 | enriettii | KAG5481621.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
7 | infantum JPCM5 | CAM67065.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
7 | martiniquensis | KAG5480982.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
7 | panamensis | AIN97193.1 | ARF-like 2-binding protein, putative | активацию ферментов, таких как фосфатидилинозитол (PtdIns) киназы | https://www.nature.com/articles/nrm3117 |
8 | donovani | CBZ33031.1 | hypothetical protein, conserved | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
8 | enriettii | KAG5482503.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
8 | infantum JPCM5 | CAM66930.1 | conserved hypothetical protein | функционально не охарактеризован | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC524295/ |
8 | martiniquensis | KAG5481974.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
8 | panamensis | AIN96925.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
9 | donovani | CBZ36064.1 | WD-40 repeat protein | участвуют в росте, клеточном цикле, развитии и вирулентности | https://link.springer.com/article/10.1007/s10930-018-9785-7 |
9 | enriettii | KAG5473032.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
9 | infantum JPCM5 | CAM69937.1 | WD-40 repeat protein | участвуют в росте, клеточном цикле, развитии и вирулентности | https://link.springer.com/article/10.1007/s10930-018-9785-7 |
9 | martiniquensis | KAG5472263.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
9 | panamensis | AIO00278.1 | hypothetical protein | определение функции затруднено | https://en.wikipedia.org/wiki/Hypothetical_protein |
Про расположение Z-DNA и Z-DNA score легче на рисунке показать, который будет представлен ниже.
Для каждого выбранного кластера было произведено множественное белоковое выравнивание на сайте https://www.ebi.ac.uk/Tools/msa/clustalo/ . В качестве алгоритма для выравнивания был выбран алгоритм ClustalW with character counts
. Файлы с выравниванием можно найти в папке data.
На каждом рисунке выше отрисован ген из генома, попадающий в соотвествующий кластер. На каждом гене, отрисованы все z-dna с их zh-score. Такая визуализация помогает увидеть где именно находится участок z-dna относительно гена. Каждый ген подписан по следующему принципу: gene + LOCUS(из файла gbff), где LOCUS отвечает за то, к какому геному принадлежит ген. Из визуализации и координат можно заметить, что во многих случаях z-dna попадает на экзон интрон и промоутер, за исключением следующих случаев:
Номер кластера | Название вида | Куда попадает |
---|---|---|
1 | enriettii | промоутер и интрон |
1 | panamensis | промоутер и интрон |
3 | panamensis | промоутер и интрон |
5 | enriettii | промоутер и интрон |
5 | infantum JPCM5 | промоутер и интрон |
5 | martiniquensis | промоутер и интрон |
5 | panamensis | промоутер и интрон |
6 | panamensis | промоутер и интрон |
7 | donovani | интрон |
7 | enriettii | интрон |
7 | martiniquensis | На данный ген не попали Z-DNA |
7 | panamensis | промоутер и интрон |
9 | panamensis | промоутер и интрон |