SergeiNikolenko / AntibodyCluster

The AntibodyCluster repository contains scripts designed to extract sequences of amino acid chains from antibodies present in Protein Data Bank (PDB) format files. The scripts employ the SAbDab database for file processing.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Извлечение последовательностей антител и кластеризация

Описание

Данный скрипт предназначен для выделения последовательностей аминокислотных цепей антител из файлов формата PDB. Для обработки файлов используется SAbDab-база данных.

Установка и настройка окружения

  1. Установите Anaconda (если он не установлен) с официального сайта.
  2. Скачайте репозиторий с помощью команды git clone https://github.com/SergeiNikolenko/AntibodyCluster.git.
  3. Создайте новое окружение в Anaconda с помощью команды conda env create -f environment.yml.
  4. Для запуска скрипта необходимо активировать созданное окружение с помощью команды conda activate ml4.

Использование

  1. Скачайте SAbDab-базу данных с официального сайта (https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/) и распакуйте ее.
  2. Разместите все файлы PDB в папке all_structures/chothia.
  3. Запустите ml.ipynb, он содержит все скрипты для обработки и инструкции.

Как работает скрипт

  1. Извлечение последовательностей аминокислот для тяжелых и легких цепей антител из файлов PDB. Данные последовательности сохраняются в отдельных файлах в формате FASTA в папках "heavy_chains" и "light_chains".

  2. Удаление пустых файлов. Скрипт проверяет файлы FASTA в папках "heavy_chains" и "light_chains" на наличие пустых файлов и удаляет их.

  3. Кластеризация последовательностей аминокислот с помощью алгоритмов DBSCAN, K-mean и иерархической кластеризации.

  4. Анализ кластеризации.

Как использовать результаты

Результаты кластеризации можно использовать для анализа структуры антител и их свойств в различных выборках. Также вы можете использовать код из скрипта для своих собственных исследований.

Как работать со скриптом

Для использования скрипта необходимо выполнить следующие шаги:

  1. Скачать базу данных SAbDab с сайта https://opig.stats.ox.ac.uk/webapps/newsabdab/sabdab/archive/all/ и разархивировать ее. В данном скрипте используется папка "all_structures/chothia", поэтому необходимо убедиться, что эта папка присутствует после разархивирования.
  2. Запустите скрипт ml.ipynb в Jupyter Notebook или Jupyter Lab.
  3. Запустите ячейку с нужной вам функцией
  4. Проведите анализ результатов и создайте визуализации с помощью полученных данных.

Что еще нужно знать

Данный скрипт может обрабатывать большое количество файлов PDB с задержкой. Если у вас возникнут проблемы с обработкой больших файлов, рекомендуется разделить файлы на более мелкие части и запустить скрипт на каждой части отдельно.

Также важно отметить, что данный скрипт был написан в рамках учебного проекта и может быть улучшен и дополнен. Если у вас есть какие-либо предложения или замечания, пожалуйста, свяжитесь с автором.

About

The AntibodyCluster repository contains scripts designed to extract sequences of amino acid chains from antibodies present in Protein Data Bank (PDB) format files. The scripts employ the SAbDab database for file processing.


Languages

Language:Jupyter Notebook 99.9%Language:Python 0.1%