ixxmu / mp_duty

抓取网络文章到github issues保存

Home Page:https://archives.duty-machine.now.sh/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Geneformer VS. scGPT 基础模型与单细胞大数据

ixxmu opened this issue · comments

Geneformer VS. scGPT 基础模型与单细胞大数据 by 生信编程自修室

近日,scGPT 正式在Nature Methods见刊,去年 5 月我们对其预印本进行过分享,scGPT: 千万单细胞数据构建多组学生成式 AI。本期推文将先补课去年 5 月 在Nature 发表的 Geneformer,并将其与 scGPT 进行对比。

2023年5月31日,哈佛大学教授刘小乐 (Xiaole Shirley Liu)与合作者在Nature上发表文章“Transfer learning enables predictions in network biology”。在这项工作中,作者开发了一种上下文感知(context-aware)、基于注意力(attention-based)的深度学习模型 Geneformer,该模型在约 3,000 万个单细胞转录组上进行了预训练(pretraining),以便在数据有限的情况下实现上下文特定(context-specific)的预测。使用特定任务的数据对Geneformer进行微调(fine-tuning),结果表明了Geneformer适用于细胞分类和基因分类相关的下游分析任务,如细胞类型注释、关键基因鉴定等。重要的是,使用疾病单细胞数据对Geneformer进行微调有助于潜在的疾病治疗靶点。

Geneformer预训练和输出

作者通过收集公开数据组装了一个大规模预训练语料库Genecorpus-30M(数据链接如下:https://huggingface.co/datasets/ctheodoris/Genecorpus-30M),其中包含人类多个组织大约30M个细胞的转录组数据。

原始的count矩阵通过一种基于排序的编码方式(rank value encoding)对每个基因的表达值进行标准化处理后输入到transformer编码单元中。Geneformer总共有6个transformer编码单元,其中每个单元包含一个自注意力(self-attention)层和一个前馈(feed forward)神经网络层。预训练通过掩码学习(masking leaning)—15%基因被mask—进行,从而保证了整个预训练过程的自监督性。Geneformer的输出是每个基因的低维表示(gene embedding)和每个细胞的低维表示(cell embedding)。

Geneformer的微调是通过使用预训练权重初始化模型并添加特定任务的transformer层来实现的。微调任务分为基因分类和细胞分类两种。表里列出了文章里所有的微调任务。

Geneformer应用实例

细胞嵌入可视化

以一套主动脉瘤的单细胞数据集作为Geneformer预训练模型的输入,从而得到每个细胞的细胞嵌入然后通过UMAP进行可视化。结果显示GeneFormer的细胞嵌入主要按细胞类型和表型聚类,而不是按个体患者聚类。这也展示了Geneformer在预训练的过程中已经捕获了不同细胞类型之间的转录差异。

单细胞数据整合

作者接下来使用了iPSC 分化为心肌细胞的两套数据集(Drop-seq和DroNc-seq)来测试使用一个平台的数据构建的细胞分类微调模型是否会降低在另一平台数据上的泛化能力。结果显示微调提升了不同平台数据的整合(相比于原始数据以及经过批次矫正以后的数据)。

基因剂量敏感性预测

在基因诊断中解释拷贝数变异 (CNV) 的一个主要挑战是确定哪些基因对其剂量变化敏感。使用随机10K个单细胞的转录组和先前报道的剂量敏感与剂量不敏感的基因集来对GeneFormer进行微调从而构建了区分剂量敏感和剂量不敏感基因的二分类器。基于交叉验证的ROC曲线显示相比于其他方法,Geneformer在预测剂量敏感性的能力显著更优(AUC=0.91)。并且在预训练阶段使用更大和更多样化的语料库可以提高预测能力。

文章中还介绍了多个Geneformer在基因分类中的应用实例(见表格)。

模拟基因扰动

接下来作者设置了一种模拟删除的方法来识别删除以后预计会在特定细胞环境中产生有害影响的基因。他们通过从细胞的排名值编码中删除基因并量化对基因嵌入和细胞嵌入的影响(余弦相似性)来模拟基因删除。

首先使用预训练的 Geneformer 对胎儿心肌细胞进行了模拟基因删除。已知心肌病(cardiomyopathy)和结构性心脏病基因的模拟删除比高脂血症(hyperlipidaemia)基因对心肌细胞具有显着更大的影响。结果显示,相比于高脂血症基因的删除,心肌病和结构性心脏病基因的删除显著影响了胎儿心肌细胞的细胞嵌入。

为了探究模拟删除对基因嵌入的影响,作者接下来分析了GATA4(一个已知的先天心脏病疾病)的缺失对于其余基因的影响。从结果可以看出来,相比于管家基因和其余转录因子的靶基因,GATA4的模拟删除对GATA4的直接靶向目标(由 ChIP-seq定义)影响更大。这也说明了预训练的 Geneformer已经捕获了基因调控关系。

最后作者将上述的模拟扰动策略应用到了候选治疗靶点的鉴定。

image-20230831133337105

作者通过一个心脏疾病的单细胞数据对Geneformer进行微调从而构建了一个区分非衰竭(non-failing)、肥厚型(hypertrophic)和扩张型 (dilated) 心肌细胞的细胞分类模型。其中非衰竭心肌细胞为正常细胞,后两者为疾病状态的心肌细胞。

作者接下来通过在疾病状态的心肌细胞上进行模拟基因删除然后测量模拟扰动后疾病心肌细胞的细胞嵌入与非衰竭细胞的相似性。相似性越高代表该基因扰动后潜在可以使心肌细胞更显著的恢复到正常状态。以下表格展示了扩张型心肌细胞的基因扰动结果(基因按照显著性和相似性从高到低排序)。

image-20240218201633971

基于上述结果,作者对候选的治疗靶点基因进行了验证。作者首先构建了肌联蛋白截短突变的疾病心脏组织模型。随后,作者通过CRISPR敲除了肌联蛋白截短突变细胞中 Geneformer 预测的靶标GSN和PLN以及两个对照基因。从结果可以看出,相比于对照组以及对照基因的敲除,GSN和PLN的敲除显著提升了细胞的收缩应力,提示这些基因作为该疾病有希望的候选治疗靶点。这个结果也暗示了Geneformer作为发现人类疾病候选治疗靶点的工具的实用性。

讨论

类似于Geneformer,最近涌现了一批单细胞分析的大语言模型,如scGPT、scFoundation、GeneCompass等,这代表了人工智能在数据井喷的单细胞分析中的广泛应用前景。然而,数据类型、微调目标、超参等方面都会可能影响模型的性能,关键还是在于理解模型底层的逻辑以及待探讨生物学问题与其的适配度。

scGPT顺势而来

好巧不巧,就在前几天,scGPT在Nature Methods见刊了。去年在其预印本的阶段,本公众号之前该工作进行过介绍:

scGPT: 千万单细胞数据构建多组学生成式AI

既然都正式见刊了,我们来对比一下scGPT与Geneformer的一些异同。

(1)在预训练的数据上二者较为相似,它们都囊括了约30M的正常细胞,包含人类的多个器官,器官的细胞数分布也比较类似(比如来自大脑的细胞最多);

(2)在数据的预处理上,二者在方法学上存在差别(Geneformer采用rank value encoding,scGTP使用分bin的策略),但本质都是在每个细胞内将绝对表达量转化为相对值,目的都是为了消除或者说尽可能减弱多来源数据整合所存在的批次效应问题;

(3)在输入的嵌入信息上,scGPT相比于Geneformer还多了一个condition token(表征基因的meta信息);

(4)在核心的模型组件上,二者都采用了多头注意力的transformer层(目的在于捕获基因之间的关系,类似于NLG捕获语句单词之间的关系)并进行了掩蔽学习,但是掩蔽学习的方式有所不同(这一块超出了小编的知识范畴,感兴趣可以去看下原文的Methods部分);

(5)在模型输出上,二者都是输出基因层面的representation,然后根据需求决定是否将其转化为细胞层面的representation;

(6)在下游任务的应用上,除了细胞类型注释、扰动预测外,scGPT展示了更多的应用场景,如单细胞多组学数据整合、基因调控网络推断等。

值得注意的是,scGPT与Geneformer两项研究都发现随着预训练数据量的增加,微调模型的性能有所提高,表明更大的预训练数据大小可以提高模型在下游任务中的性能。此外,scGPT原文还对比了不同场景下进行预训练(即使用不同的预训练数据)的模型的性能,揭示了预训练数据与目标任务数据集的匹配程度对于模型在下游任务中取得优异结果的影响。总的来说,这些结果表明,更大更多样化(囊括更多场景)的预训练数据集可以使模型更有效地应用于诸多下游应用场景。