Esya-rae / hse22_project

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

hse22_project

колаб https://colab.research.google.com/drive/1Hh7yOfWvD3B9yhd8biqx9jXgl6XJnMdV?usp=sharing

Организм Число генов Длина генома Длина участков с экзонами Доля покрытия экзонами Участки с zh-score Zh-score > 500 Длина участков ZH
Gemella_asaccharolyta 1273.0 1289860.0 1154572.0 89.5 99118 1 10
Gemella_haemolysans 1831.0 1892523.0 1625794.0 85.9 2011 0 0
Gemella_massiliens 1714.0 1804814.0 1543947.0 85.5 803 0 0
Gemella_sanguinis 1714.0 1795201.0 1571300.0 87.5 260123 45 448
Gemella_palaticanis 1875.0 1802210.0 1598667.0 88.7 436 21 194

Screenshot 2022-06-15 at 17 07 58

Screenshot 2022-06-15 at 17 08 07

Screenshot 2022-06-15 at 17 08 14

Screenshot 2022-06-15 at 17 08 35

Screenshot 2022-06-15 at 17 08 40

Как можно заметить, в этом роде бактерий не очень распространены Z-DNA

Попытаемся найти кластеры

Screenshot 2022-06-15 at 17 15 49

Пока выглядит все хорошо

Теперь найдем кластеры, у которых есть z-dna хоть в каких-то бактериях

Screenshot 2022-06-15 at 17 18 38

Ни в одном из кластеров нет z-dna в более, чем одной бактерии Получается, что таких кластеров, у которых у гомологичных белков сохраняется участки Z-DNA в разных геномах - нет

Визуализация для некоторых кластеров (для оставшихся есть в колабе. иногда зднк находится рядом с протеином, чтобы возможность наличия нескольких днк была больше, но это не помогло) Screenshot 2022-06-15 at 22 29 52 Screenshot 2022-06-15 at 22 28 49 Screenshot 2022-06-15 at 22 29 38

Табличка с выбранными кластерами, названиями белков для каждой бактерии, количеством zdna, функциями (взяты из feature table), координатами кластера, координатами zdna и zdna score

# Species Genes Alg.-Conn. protein.As.faa protein.Ha.faa protein.Ma.faa protein.Pa.faa protein.Sa.faa # Zdna function Z-DNA start Z-DNA end Z-DNA score Cluster start Cluster end
5 5 1.0 KXB58042.1 KXB59111.1 WP_021752439.1 WP_179940320.1 WP_031551257.1 1 acyl-CoA thioesterase 144956 144964 650.9198 144949
5 5 1.0 KXB58649.1 KXB61962.1 WP_062173118.1 WP_179940720.1 WP_031550108.1 1 cell cycle protein, FtsW/RodA/SpoVE family 178584 178596 2091.0830 177395 178600
5 5 1.0 KXB58987.1 KXB57588.1 WP_072520414.1 WP_179940754.1 WP_031552763.1 1 thioesterase family protein 57634 57647 3428.5290 57652 58035
5 5 1.0 KXB57676.1 KXB58262.1 WP_062173854.1 WP_179940864.1 WP_031551840.1 1 tRNA threonylcarbamoyladenosine dehydratase 112188 112200 2943.4610 112166 112933"
5 5 1.0 KXB56657.1 KXB57232.1 WP_021753553.1 WP_179941091.1 WP_003144216.1 1 ribosomal protein L23 57634 57647 3428.5290 57570 57851
5 5 1.0 KXB56649.1 KXB57240.1 WP_021753546.1 WP_179941101.1 WP_003144098.1 1 ribosomal protein L14 61045 61055 980.8116 61115 61483
5 5 1.0 KXB58523.1 KXB62137.1 WP_062173198.1 WP_179941475.1 WP_031550272.1 1 RNA polymerase sigma factor RpoD 112188 112200 2943.4610 111135 112223
5 5 1.0 KXB58861.1 KXB61222.1 WP_072520432.1 WP_179941840.1 WP_031550288.1 1 AI-2E family transporter 107889 107901 712.1870 106778 107938

Квадруплексы

Ни для одного генома квадруплексов не нашлось.

Screenshot 2022-06-15 at 22 55 52

About