使用RNA-seq数据通过网络熵评估肿瘤内异质性

简介: scientific report第6卷,文章编号:37767(2016)摘要肿瘤内异质性(ITH)出现在肿瘤进展、转移和复发的不同阶段,而这些对于临床应用是重要的。

scientific report第6卷,文章编号:37767(2016)

摘要

肿瘤内异质性(ITH)出现在肿瘤进展、转移和复发的不同阶段,而这些对于临床应用是重要的。我们使用来自肿瘤样品的RNA测序数据,并根据生物网络状态测量ITH水平。为了模拟基因之间的复杂关系,我们使用蛋白质相互作用网络来考虑基因 - 基因关系。通过使用两个网络nJSD与JSD之间的基于熵的距离度量来测量ITH。使用nJSD,我们定义了基于转录组的ITH(tITH)。使用真实的生物数据集对与ITH相关的问题进行了广泛的测试。研究人类癌细胞系数据和单细胞测序数据以验证我们的方法。然后,我们分析了TCGA泛癌6,320例患者。我们的结果与广泛使用的基于基因组的ITH推断方法一致,ITH在生存分析中表现出很好的性能。对小鼠克隆进化数据的分析进一步证实,我们的基于转录组的ITH与不同克隆进化阶段的遗传异质性一致。此外,我们发现细胞周期相关途径对克隆进化过程中增加网络异质性有显着贡献。我们相信所提出的基于转录组的ITH可用于RNA水平的肿瘤样品的异质性。

介绍

癌症具有由不同癌症细胞组成的复杂系统,所述癌症细胞彼此相互作用并且还与正常细胞相互作用,称为肿瘤内异源性(ITH)。 ITH的复杂性是了解癌症系统动力学的一个主要障碍,也难以预测治疗结果。肿瘤内异质性是单个肿瘤细胞进化的结果。这种ITH的主要原因之一是癌细胞的基因组不稳定性。高通量测序技术广泛用于在分子水平上测量ITH。最近的一项研究表明,具有不同基因组特征的多种细胞在单个肿瘤中共存。细胞的多样性在转移中具有进化优势。另外,已知多种亚克隆在治疗环境中处于自然选择的高压下,甚至引起治疗抗性。化疗期间的克隆进化使目前的靶向药物治疗变得困难。然而,在瘤形成过程中仍然存在关于选择性过程的进化问题,即选择和存活哪些子细胞。对于这个问题,一项结肠癌研究表明,没有选择性扫描的大爆炸模型和肝癌研究提出了肿瘤的非达尔文进化。无论选择性力是否存在,亚克隆的过度生产都很可能导致ITH。(这一段是阐述,肿瘤异质性导致了许多治疗困难,而ITH可能是肿瘤异质性的原因)

已经用多区域肿瘤测序鉴定了分子水平ITH。尽管这种多区域测序处于ITH研究的最前沿,但单细胞基因组学已成为最可靠的技术。单细胞测序对每个克隆的直接测序具有优势。然而,单细胞测序的实验成本对于临床应用而言太高。因此,研究人员开发了计算方法,用大块肿瘤测序数据推断ITH,作为每个克隆基因组信息的聚合元数据。通常,子细胞携带完全相同的亲本基因组信息。然而,他们的DNA复制系统通常在癌症中发生故障,并且留下了新的突变特征,此外还有拷贝数改变(CNA)和杂合性丢失(LOH)。那些基因组改变仍然代代相传,因此能够回溯基因组特征。基于同样的原理,从大量肿瘤测序的基因组景观推断亚克隆是一种广泛使用的策略。计算方法,如PyClone和EXPANDS,是目前最先进的工具,使用突变信息推断亚克隆种群。推断ITH的临床相关性也与预后结果有关。

尽管基于基因组信息的ITH推断是成功的,但还有一些问题需要进一步研究。例如,一项研究报告说,具有中等数量亚克隆(3或4个克隆)的患者比更多异构患者(超过4个克隆)的风险更高。他们讨论了在多样性的优势和产生可变子细胞的成本之间存在权衡,然而如前所述,癌症进展期间的选择性扫描仍然存在问题。为了更好地理解肿瘤异质性和克隆进化过程,我们需要研究基因组信息用于ITH预测时的三个问题。首先,很难确定体细胞突变是否是癌症基因组进化方面的驱动因素或乘客突变。关于肿瘤中性进化的研究提出,在某种情况下,驱动突变可以有不同的改变。因此,用驱动基因突变推断ITH可能无法反映真正的亚克隆群体。其次,单独的突变信息不足以鉴定癌症中亚克隆的细胞活性。此外,ITH需要考虑细胞可塑性,因为癌症亚克隆的表型可以在没有遗传基因组变异的情况下改变。结肠癌研究表明,不同的表型可以存在,基因型没有差异。最后,癌症微环境在克隆进化,肿瘤进展和转移中很重要。根据目前的研究,不同的克隆活动和周围的基质和免疫细胞对癌症进展的影响。这一发现也在单细胞测序研究中得到证实。然而,突变谱系分析只能检测癌症克隆的异质性,而不能检测微环境因素的其他影响。因此,我们认为,除了目前基于DNA的ITH推断之外,在RNA水平上测量ITH可以为ITH及其临床应用提供新的见解。

为了研究异质克隆的功能差异,我们开发了一种使用RNA测序数据进行ITH推断的方法。使用RNA测序数据有两个主要原因。首先,RNA测序数据与基因组数据一样普遍存在。其次,像突变一样,转录组也用于进化研究35,36。然而,RNA水平的分析存在挑战。需要考虑复杂的基因 - 基因依赖性37。因此,我们使用生物网络,这是建立复杂基因 - 基因关系的最有效工具 - 蛋白质相互作用网络(PIN)和途径信息38,39,40。

给定网络,需要有效的度量来量化网络扰动的差异,以反映单个基因的表达水平及其关系,例如网络拓扑以及基因的共表达。我们使用信息理论方法来测量网络状态。这种方法在基因表达变化方面成功地测量了网络扰动[41,42,43]。该熵测量对于检测从正常状态到疾病状态的网状态转变也是有效的44,45。最近网络熵的应用成功地显示了原发性肿瘤和转移性肿瘤之间的差异46。此外,Teschendorff小组的信号熵研究确定了网络熵与分化潜能之间的关系,另外还有预后的重要性47,48,49。

我们的假设是异质性肿瘤在网络中的模糊性比同质性肿瘤更明显(图1)。因此,我们使用信息论,基于网络的Jensen-Shannon Divergence(nJSD)50,利用转录组数据开发了一种新的ITH测量方法。我们的方法针对与ITH相关的问题进行了广泛测试。为了概念验证,我们使用了人类癌症细胞系数据和单细胞测序数据。然后,分析泛癌队列数据。我们的结果与广泛使用的基于基因组的ITH推断方法一致。此外,我们的方法还测试了免疫细胞浸润。最后,小鼠克隆进化分析表明,我们的网络扰动推断与不同克隆进化阶段的ITH一致。

目录
相关文章
|
7天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
25天前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
|
1天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
13 0
|
2天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
22 0
|
2天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
25 0
|
2天前
|
机器学习/深度学习 数据可视化 网络架构
matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类
matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类
|
19天前
|
安全 算法 网络安全
网络安全与信息安全:保护你的数据,保护你的未来
在数字化的世界中,网络安全和信息安全已经成为我们生活的重要组成部分。本文将深入探讨网络安全漏洞、加密技术以及安全意识等方面的问题,以期帮助读者更好地理解和应对网络安全威胁。
17 4
|
25天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:保护你的数据,保护你的未来
在数字化的世界中,网络安全和信息安全是每个人都需要关注的问题。本文将深入探讨网络安全漏洞、加密技术以及安全意识等方面的问题,帮助读者更好地理解和保护自己的数据。我们将讨论如何识别和防范网络安全威胁,如何使用加密技术来保护信息,以及如何提高自己的安全意识,从而在网络世界中更安全地生活和工作。
16 5
|
26天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:保护您的数据和隐私
随着互联网的普及和技术的快速发展,网络安全和信息安全已经成为我们日常生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术以及安全意识等方面的知识,帮助读者更好地保护自己的数据和隐私。
21 4