大数据挖掘辅助癌症治疗的四大挑战

作者:孔静 2016-05-15 08:00

{{detail.short_name}} {{detail.main_page}}

{{detail.description}} {{detail.round_name}} {{detail.state_name}}

{{detail.province}}-{{detail.city}}
{{detail.setup_time}}
融资金额:{{detail.latest_event_amount}}{{detail.latest_amount_unit}}
投资方: · {{item.latest_event_tzf_name}}
企业数据由提供支持
查看

不久前,在瑞士达沃斯召开的世界经济论坛上的一个panel讨论中,美国副总统Joe Biden当场要求临床医生和研究者举例表示人类在抗击癌症中突破的障碍。其中最重要的议题是“大数据”,具体而言,即“大数据”的收集、分析和应用。


研究者表示:“大数据”是有效的,这是因为有重大的信息可以从大数据集合里分析。越是大样本的体量,越能发现一些在小样本体量中难以发现的小问题。另一些研究者则表示:“大数据”岂止于大?而是越多越好。


来自美国 St. Jude儿童研究中心的首席信息官、高级副总裁Keith Perry认为,“大数据”包含额外的三层意思:多个品种的数据类型、数据生成的速度和数据集成的程度。在他看来,目前的许多数据库之间无相互接口,因为它们是由单独的预防、研究和临床部门产生的,现在缺乏一个整合这些不同结构、集中信息的潜在平台。


另一位来自爱立信公司的Narayan Desai博士引用了其在2015年的新闻文章,基因组学将不得不解决的基本问题是数据是如何生成的。尽管目前的数据收集和分析能力有限,但应该利用好它,因为测序的可访问性,将导致访问信息出现爆炸性的增长,并在很大程度上较为分散,传统的信息挖掘将难以解决问题。


挑战一:提取有效信息已达到饱和点


最近,一些科学家建议:针对性和创造性地利用现有的数据可以指导临床实践。


来自加州大学旧金山分校(UCSF)的Nevann Krogan教授表示:基因组学已经为癌症治疗带来了重大变革,其作用远超过以往的遗传学知识。尽管测序提供商认为我们投入的金钱越多,结果越清晰,事实上并不是如此。我们现在已经达到了提取有效信息的饱和点。


以癌症为例,目前针对各种各样的癌症已经出现了“海量”的数据。尽管数据暴增趋势在继续,但是Krogan 教授认为,突破癌症治疗所需的数据已经达标。成堆的新数据只能显示癌症惊人的多样性,即使是一个单一的肿瘤也包含独特的成千上万的基因突变,这使得使研究人员找出哪些是驱动疾病的基因愈加困难。


Krogan教授和同事于2015年5月21日在《Molecular Cell》上发表文章:除了积累更多的数据之外,研究者需要更加仔细地找出现有数据的关联,并成立了“肿瘤细胞地图项目”(CCMI),旨在系统地介绍癌症基因间的相互作用,以及它们如何导致了疾病与健康的状态,从而研究出癌细胞里的突变基因和蛋白的“路线图”。


挑战二:个体差异性导致难以建立相关基因网络


“肿瘤细胞地图项目”(CCMI)将加州大学圣迭戈分校(UCSD)的顶尖生物医学科学家和加州大学旧金山分校(UCSF)顶尖的细胞结构学家整合到一起,共同研究基因组学相关信息,瓶颈是如何解释肿瘤基因组信息。


加州大学圣地亚哥分校的Ideker教授表示:进行癌症DNA测序的样本已经接近20000例基因组,但仍然难以分析癌症基因组的基因网络,即“没有两个肿瘤患者在基因层面上看起来很相像。”因此,癌症基因组图谱(TCGA)项目,国际癌症基因组协会(ICGC)已经开始系统地分析成千上万的肿瘤的多重信息,包括mRNA和microRNA表达、DNA拷贝数和甲基化以及DNA序列。


现在强烈需要有一个可以整合和解释基因组规模分子信息的方法,以洞察驱动肿瘤恶化的过程;同时也迫切需要医疗机构的参与,以解决公司在分析肿瘤基因时因无法获得临床相关的数据而得出不当结论。


挑战三:无法准确预测患者风险转移


解决子网络分析需要综合信息方法,尤其是综合已知编码蛋白质的基因在表达蛋白质内部子网或通路作用间的数据库交互。这需要基因或蛋白质在各个子网络内形成的聚合表达式组成的巨大交互网络,而不是单个基因或蛋白质。

研究人员表示:这些子网可以识别不同种群患者之间的基因表达差异导致的不同临床行为。与传统的分析相比,虽然这种方法需要大量的生物信息学、统计学和蛋白结构知识,但这种子网分析能够解释基因表达差异下的分子通路,毕竟它使用的数据已经存在。


Ideker博士和他的同伴生物信息学专家表示:对于大多数中度乳腺癌风险的患者,传统因素不是预测,大约70% - 80%的淋巴癌阴性患者在接受不必要的辅助化疗。当前的许多风险因素可能是次要表现而不是疾病的主要机制。一个新的挑战是如何确定新的与疾病更加直接相关的疾病,可以更准确地预测个体患者的风险转移。


挑战四:无法准确判断治疗效果


研究人员最新调查证据支持基因网络分析可以提供预后信息。例如,加州大学圣迭戈分校(UCSD)的Chang博士和同事们在2012年的《血液》杂志发文:通过单克隆B细胞在血液中、骨髓、次级淋巴组织的集聚,采用基因网络分析并预测慢性淋巴细胞白血病(CLL)患者的特点。

具体地说,研究人员使用subnetwork-based(子网络)基因表达分析概要文件区分不同患者的慢性淋巴细胞白血病进展风险。 临床患者的慢性淋巴细胞白血病患者有很大的差异:有些病人无症状多年;有些患者则在被诊断后不久就出现较为严重的症状。


由于目前必须明确证据显示疾病进展或疾病相关的并发症,否则建议停止治疗,但标准疗法与显著的毒性有关,因此准确预测是至关重要的。目前已经有通过基因芯片检测的报告显示,替代标记物可作为慢性淋巴细胞白血病已知的预后因素,如IGHV突变状态。


预测子网的表达水平随着时间的推移而发生变化,但是在之后的时间点表现出较强的相似性。大数据挖掘已经成为慢性淋巴细胞白血病患者等癌症的的治疗策略和潜在的观察途径。

如果您想对接动脉网所报道的企业,请填写表单,我们的工作人员将尽快为您服务。


注:文中如果涉及企业数据,均由受访者向分析师提供并确认。如果您有资源对接,联系报道项目,可以点击链接填写基本信息,我们将尽快与您联系。

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。

分享

微信扫描二维码分享文章

企业
对接
商务
合作
用户
反馈