ixxmu / mp_duty

抓取网络文章到github issues保存

Home Page:https://archives.duty-machine.now.sh/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

要读文献 | Nat Commun | 基于基因表达的癌症药物敏感性推断 | 文献精读

ixxmu opened this issue · comments

要读文献 | Nat Commun | 基于基因表达的癌症药物敏感性推断 | 文献精读 by 生信小白要知道

大家好!要读文献系列正式启动!

今天给大家分享的是由印度德里印度理工学院Debarka Sengupta研究员团队和澳大利亚昆士兰的前列腺癌研究中心的Colleen C. Nelson教授团队联合发表在Nature Communications的研究成果,文章标题为“Gene expression based inference of cancer drug sensitivity”。在这项研究中,作者开发了一种名为Precily的利用基因表达数据预测癌症药物敏感性的深度神经网络模型。作者将药物的结构特性与基因表达的通路特异性相结合作为特征来训练模型,该模型在体外和体内药物预测反应中都取得了较好的表现。

参考资料提前看

原文链接:https://www.nature.com/articles/s41467-022-33291-z

代码链接:所有代码都可以在Github上找到 https://github.com/SmritiChawla/Precily,该仓库链接到Zenodo https://doi.org/10.5281/zenodo.7024834。

Abstract

肿瘤间和肿瘤内异质性是癌症治疗的主要障碍,也是导致癌症患者药物反应差异的原因。高通量筛选数据集的可用性为使用癌症样本的分子特征进行基于机器学习的个体化治疗建议铺平了道路。本研究介绍了一种名为Precily的基于基因表达数据推断癌症治疗反应的预测建模方法。作者展示了同时考虑药物结构特性与基因表达通路特异性作为特征的好处,并将Precily应用于与数百种癌细胞系相关的scRNA-seq和bulk RNA-seq数据上。此外,作者还评估了模型在他们自己的前列腺癌细胞系和暴露于不同治疗条件的异种移植数据集中的预测能力,进一步证明了该方法的适用性。

Background

癌症治疗面临着肿瘤内和肿瘤间异质性带来的挑战。肿瘤内部的克隆多样性以及微环境中非恶性细胞的变化使得预测治疗反应变得困难。目前的治疗策略主要依赖于针对特定癌症相关基因或蛋白质的靶向药物,但并非所有情况下都能找到明确的靶向标志物。此外,药物抵抗性也是一个重要的问题,未考虑药物抵抗性可能会降低患者的生存率。因此,基于分子图谱的癌症药物反应预测是非常必要的。

近年来,大规模药物基因组数据库的建立使得个性化预测性肿瘤学研究成为可能,包括CCLE、GDSC、CTRP等。这些数据库包括了大量细胞系和抗癌药物的信息,为基于分子特征进行药物反应建模提供了数据支持。在这方面,机器学习已被广泛应用于癌症药物反应的预测,以解决治疗个体化的需求。

总结:癌症的基因型和表型异质性对治疗反应造成了挑战,而借助大规模的药物基因组学数据库和机器学习方法,可以更好地预测癌症药物反应,为个性化治疗提供支持。

Highlight

这篇文章有两个关键改进点:

  1. 结构特性的考虑:过去的研究中,大多数没有将药物的结构特性纳入预测模型的特征中。这导致了机器学习模型在对未在训练数据中出现的药物进行预测时效果不佳。因此,作者决定将药物的分子结构数据(使用SMILES表示)作为预测模型的解释变量(也就是特征),以提高预测准确性,并使模型能够对新药物进行预测。
  2. 通路特异性的考虑:过去的研究中,基因表达水平被直接用作解释变量,而忽略了通路特异性组合的影响。然而,许多靶向治疗药物的作用机制是通过通路实现的。因此,作者认为忽视通路的作用会过度依赖于机器学习算法。他们引入了通路富集分数作为解释变量,以更好地反映基因表达的通路特异性,同时减轻数据集中的批次效应。

Methods

本文作者提出了一种名为Precily的基于深度神经网络(DNN,deep neural network)的框架,用于预测体外和体内的药物反应。

数据预处理

  1. 药物结构信息:基于从CCLE数据库中筛选出550个细胞系在GDSC数据库中获得了192种化合物的药物反应信息,基于1517名TCGA患者的用药情况获得了215种化合物的临床反应信息,对这些化合物进行SMILES检索,过滤掉没有SMILES信息的药物分子。最后获得550个CCLE细胞系对应的173个化合物的SMILES和1443个TCGA患者对应的139个化合物的SMILES,并使用smiles2vec工具将这些SMILES转换为大小为100的向量。
  2. 通路特异性分数:从MSigDB中选取包含1329个基因集的C2经典通路集合作为输入的参考基因集,以log2(TPM+1)基因表达矩阵作为输入计算GSVA得分,得到通路得分矩阵。

将通路得分矩阵与药物分子结构嵌入向量相结合,CCLE细胞系训练数据集包括80056个细胞系药物组合(行)和1429个特征(包括1329维的通路得分向量和100维的药物结构信息)作为解释变量(列),LN IC50作为反应向量列(下图a)。对于TCGA患者数据,将单个癌症类型的基因表达谱转化为通路得分,根据共同通路合并每个癌症类别中药物反应信息可用样本的GSVA得分。最终矩阵包括3108个患者药物组合和1427个特征(通路得分和药物结构),反应变量为患者是否对药物有反应(有反应者=1,无反应者=0)。

模型构建

  1. 模型结构:Precily模型由5层全连接层组成,包括三个隐藏层、一个输入层和一个输出层(上图b),使用ReLU作为激活函数。模型的输入包括通路得分和药物结构,输出为药物的反应变量。
  2. 训练过程:将数据集分为训练集和测试集,其中训练集占90%,测试集占10%,以确保细胞系之间没有重叠。使用五折交叉验证进行超参调优,并利用Adam优化器来优化学习率,使用均方误差作为损失函数,也就是说模型性能通过预测值与实际观察到的IC50值的相关性进行评估。

综上,作者通过整合药物分子结构信息和通路富集得分,构建了一个DNN模型Precily,用于预测药物在癌症治疗中的反应。该模型结合了不同来源的数据,并通过有效的训练方法来提高预测性能。

Results

Precily可以在癌细胞系中实现可重复的药物反应预测

作者将Precily与两种被广泛引用的方法 —— 由Suphavilai, Chayaporn等人开发的CaDRReS-Sc模型和由Sakellaropoulos, Theodore等人开发的方法进行了比较。这两种方法都利用基因表达谱进行药物反应预测。此外,还考虑了传统的机器学习方法 —— 随机森林和弹性网络,这些方法已被先前的研究用于药物反应预测。作为基线,我们使用基于方差平方系数(CV2)选择的500个基因的表达水平评估了随随机森林、弹性网络和Precily模型的性能。在验证数据上,Precily基于预测的LN IC50值与真实值之间的相关性最高,紧随其后的是CaDRReS-Sc(上图c)。图c显示了不同方法预测的Pearson相关系数(ρ)在药物间的分布,表明了预测与真实LN IC50值之间的一致性。汇总药物/细胞系对的预测结果,得到Pearson相关系数为0.88(R2 = 0.77; P < 2.2e-16)(上图d)。除此之外,作者还利用CTRPv2数据库中的另一批小分子抗癌药物与CCLE细胞系组合进行了类似于GDSC数据的分析,得到的Pearson相关系数为0.84(R2 = 0.70;P < 2.2e-16)(上图e)。上述分析表明,Precily可以在癌细胞系中以相当高的准确率实现可重复的药物敏感性预测。

利用单细胞表达谱进行药物反应预测

为了展示Precily在单细胞水平上预测药物反应的潜力,作者使用了两个现有研究中的单细胞数据集。首先,我们使用了Kinker, G. S.等人提供的207个癌症细胞系的scRNA-seq数据,其中116个细胞系与CCLE数据集重叠。作者重新训练了CCLE/GDSC模型,使得Kinker, G. S.等人的细胞系集合从未用于模型训练。然后将这个模型应用到Kinker, G. S.等人的数据集上,并得到Pearson相关系数为0.85(R2 = 0.73; P < 2.2e-16)(上图a)。

此外,作者还使用Lee等人先前发表研究中的第二个scRNA-seq数据集,该数据集包含未经治疗的转移性乳腺癌细胞(MDA-MB-231)和一群在药物假期(在治疗过程中暂时中断药物的使用)后对紫杉醇获得敏感性的细胞群。在这项研究中,转移性MDA-MB-231细胞暴露于紫杉醇药物后,大多数细胞在暴露五天后死亡。然而,一些残留细胞在停止药物后在无药物培养基中增殖并建立了克隆。值得注意的是,这些细胞在重新暴露后对紫杉醇变得更敏感。在CCLE/GDSC数据上训练的Precily能够从紫杉醇敏感MDA-MB-231细胞群的scRNA-seq数据中正确预测体外治疗反应(上图b)。

前列腺癌细胞系中不同治疗策略的分析

前列腺癌是男性最常见的恶性肿瘤,利用紫杉烷或附加的雄激素靶向治疗对生存率影响不大,最终会出现对这些药物的获得性耐药性。所以,在癌症动态发展的环境中,合适的药物选择和组合对于患者能够获得最大利益至关重要。因此,选择前列腺癌治疗的最佳药物需求尚未得到满足。

作者在他们自己的五个未经药物处理的前列腺癌(PCa)细胞系的bulk RNA-seq上独立验证了CCLE/GDSC训练的Precily模型,每个细胞系都有两个生物学重复,并预测了GDSC数据库中的针对不同细胞通路的155种药物在上述十个样本中的药物反应。与雄激素受体(AR)阴性细胞系(DU145和PC3)相比,AR阳性的PCa细胞系(LNCaP、DUCAP和VCAP)对药物更为敏感,且突出显示了LNCaP细胞对PI3K/mTOR信号通路靶向药物的潜在敏感性(上图a)。上图b展示了LNCaP、DUCAP、VCAP、DU145和PC3与预测LN IC50值的Z-score的整体分布,上图c展示了LNCaP细胞系的LN IC50真实值与预测值之间的Pearson相关系数为0.86。

此外,作者使用Precily模型对在不同AR激动剂(双氢睾酮,DHT)和AR拮抗剂(比卡鲁胺,BIC;恩杂鲁胺,ENZ;阿帕鲁胺,APA)存在时LNCaP细胞系对药物的敏感性变化进行了研究。结果显示,与在没有DHT和AR拮抗剂的条件下培养的细胞相比,用DHT培养的LNCaP细胞更加对药物敏感(上图d,VEH为对照)。此外,在存在DHT的条件下培养的细胞显示出增殖相关通路的活性增加(GSVA得分升高),这与DHT刺激前列腺癌细胞增殖的已知作用相符(上图e)。

然而,添加AR拮抗剂并不能完全逆转DHT引起的药物敏感性。尽管如此,模型预测显示,即使存在AR拮抗剂,细胞仍然对某些主要化疗药物(如顺铂、多西他赛和紫杉醇)敏感(上图f)。这些发现表明Precily模型在识别潜在的前列腺癌联合疗法方面的潜力。此外,作者还验证了Precily模型对于预测对未见过的化合物反应的有效性,例如二甲双胍和奥利司他(上图g),这两种药物分别主要用于治疗二型糖尿病和肥胖症,也有越来越多的研究表明它们在某些癌症中具有一定治疗潜力。结果表明基于Precily对LNCaP细胞系进行这些药物的敏感性预测在相对尺度上是一致的(上图h)。这些结果均展示了Precily模型在指导潜在联合疗法和预测对新药物反应方面的应用前景。

Precily预测在异种移植中与广泛机制推理一致

异种移植可用于体内肿瘤模型,用于直接研究具有相似表型的癌症患者的治疗反应和预测抗癌药物反应。因此,作者评估了Precily模型在异种移植肿瘤中预测药物反应的能力。

使用来自LNCaP异种移植肿瘤的bulk RNA-seq数据,针对AR治疗的敏感性和耐药性进行研究。LNCaP异种移植肿瘤的建立和初期生长依赖于雄激素(PRE-CX)。去势后,AR活性和肿瘤生长被抑制(POST-CX),然而,这种对去势的初始反应可重复地转变为去势抵抗(CRPC)。对CRPC进一步使用ENZ,初始阶段治疗反应良好(ENZ敏感;ENZS),然而,随着时间的推移,耐药性出现(ENZ耐药;ENZR)(上图a,实线代表生长和治疗耐药,虚线代表治疗敏感)。

使用CCLE/GDSC训练的Precily模型,作者预测了LNCaP异种移植肿瘤样本对155种药物的药物反应。根据细胞增殖指数和对药物的整体预测敏感性,样本被分为三个组(上图b)。Cluster1样本的肿瘤耐药性最强,这与其较低的增殖指数相关。Cluster1主要是由ENZ处理的肿瘤样本组成。相比之下cluster3样本对155种药物的总体敏感性最高,这可能归因于其较高的增殖指数,细胞增殖相关基因组的GSVA通路得分较高(上图c, d)。ENZR肿瘤在这三个群中的分布,展示出治疗结果的异质性。

作者假设ENZ耐药是通过不同的潜在机制获得的,并且可能受到肿瘤微环境中基质成分的影响。与ENZS肿瘤的均匀分布相比,ENZR肿瘤的预测LN IC50的多峰分布加强了多种ENZ耐药机制的指示(上图e)。相对于ENZS,ENZR样本也倾向于具有更高的增殖相关通路的GSVA得分,但这并未达到统计学上的显著性(上图f)。预测显示,相对于研究中的其他肿瘤类型,ENZR肿瘤对EGFR靶向药物更为敏感(上图g)。

Precily在训练集中的药物上取得了不错的结果,作者还希望它可以预测未包含在训练集中的药物反应,比如APA、BIC和ENZ。作者观察到PRE-CX、POST-CX和CRPC组对AR拮抗剂的敏感性。然而,对于ENZ治疗的ENZS和ENZR组,模型预测敏感性下降。分析表明,接受ENZ积极治疗的ENZS肿瘤不太可能受益于额外的AR拮抗剂(上图h)。

总的来说,上述研究表明了Precily模型在预测异种移植肿瘤中对药物反应的有效性,展示了其在指导治疗选择方面的潜力。

患者临床反应的可预测性

TCGA包含多种癌症类型的大量组学数据,其中包括原发性患者肿瘤的基因表达谱和临床反应信息。作者使用自动机器学习(AutoML)H2O.ai的现成R库构建了一个基于TCGA肿瘤bulk RNA-seq数据的药物反应分类模型,用于预测患者对药物治疗是否有反应。AutoML共评估了34个模型(包括机器学习、深度学习、增强模型和集成模型),并提供了“极端随机树”(XRT)作为最佳模型,且XRT在测试数据集中的AUC-PR为0.85(上图a)。作者进一步测试了包含癌症分期信息是否改善了药物反应预测,但其结果表明癌症分期缺乏客观性(AUC-PR = 0.79)。

作者还发现患者的药物反应概率与生存风险之间具有相关性。使用反应概率的中位数作为阈值将患者分为两组进行生存分析,在模型预测为有效的药物中,患者的总体生存显着改善(上图b)。

接下来,作者将TCGA模型应用于一个与黑色素瘤相关的独立数据集时能够正确预测三位患者的敏感性或耐药性(上图c, d, e),可以体现出TCGA模型的可用性和准确性。

想要了解更细节的方法与结果请查看原文,原文链接:https://www.nature.com/articles/s41467-022-33291-z

Summary

这项研究开发了一个名为Precily的基于DNN的框架,用于通过基因表达谱来预测癌症治疗的反应。Precily的独特之处在于它集成了药物分子结构数据,使其能够预测几乎任何样本-药物对的药物敏感性。Precily的一个局限性是,在单个药物水平上观察到的IC50值与预测值之间的相关性不是很理想,但Precily在不同药物之间相对敏感性的预测方面表现良好。该研究通过体外和体内模型评估了Precily的预测性能,展示了其潜在的临床相关性。

总的来说,该研究将药物反应的生物信息学预测与临床可解释的观察联系起来,推动了癌症治疗的药物基因组学研究。


那今天的分享就到这里啦!我们下期再见哟!

最后顺便给自己推荐一下嘿嘿嘿!

如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!

蟹蟹你们的喜欢和支持!!!

啊对!如果小伙伴们有需求的话,也可以加入我们的交流群:一定要知道 | 永久免费的生信交流群终于来啦!| 第三回

还有兴趣的话,也可以看看我掏心掏肺的干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!

如果有小伙伴对付费分析有需求的话,可以看看这里:个性化科研服务 | 付费分析试营业正式启动啦!定制你的专属生信分析!可提供1v1答疑!

入群链接后续可能会不定期更新,主要是因为群满换码或是其他原因,如果小伙伴点开它之后发现,咦,怎么失效啦!不要慌!咱们辛苦一下动动小手去主页的要咨询那里,点击进交流群即可入群!

参考资料
  1. https://www.nature.com/articles/s41467-022-33291-z
  2. https://mp.weixin.qq.com/s/fFDXSDnTqlxuS94R7N1vzg
  3. https://mp.weixin.qq.com/s/s7X3IDlf8oF7SrYGLJbRbQ
  4. https://mp.weixin.qq.com/s/ZF7Zay1zxJKG5OneYaic1A
  5. https://mp.weixin.qq.com/s/d7ZPfxg4oOHHaMhcxdQLMA

Screenshot_20240223-101544
Screenshot_20240223-100607
Screenshot_20240223-100710