punoqun / ChemRep

Representations of chemical compounds

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ChemRep

Representations of chemical compounds

Example Usage

GetData class has the following methods.

  • get_regression_data
  • get_up_genes
  • get_down_genes
from get_data import GetData
import json

with open('L1000CDS_subset.json', 'r') as f:
    L = json.load(f)

obj = GetData(L=L, cell_line='VCAP', descriptor='jtvae', n_fold=5, random_state=42,
              random_genes=False, csv_file='VCAP_jtvae.csv')

x, y, folds = obj.get_down_genes()
x.drop(['SMILES'], axis=1, inplace=True)

for i, (trn, val) in enumerate(folds) :
    print(i+1, "fold.")
    
    trn_x = x.iloc[trn, :]
    trn_y = y.iloc[trn, :]
    val_x = x.iloc[val, :]
    val_y = y.iloc[val, :]
    
    print('Train shapes:', trn_x.shape, trn_y.shape)
    print('Test shapes:', val_x.shape, val_y.shape)

    model.fit(trn_x, trn_y)
    ...


Autoencoderdan tek tek representation almak uzun sürdüğü için önceden csv dosyasına kaydedilmiş representationları kullanabilmek için GetData sınıfına csv_file parametresi eklendi. Buraya pert_id,SMILES ve representation kolonları bulunan bir csv dosyası verildiğinde bu dosyadan yararlanarak hızlı bir şekilde feature, target ve fold değerlerini GetData sınıfındaki metodları kullanarak alabiliyoruz. Eğer bu parametre kullanılmazsa istenilen representation tek tek çıkartılır.

About

Representations of chemical compounds


Languages

Language:Jupyter Notebook 70.9%Language:Python 28.3%Language:Shell 0.9%