医疗领域应用大数据技术的难题:收集信息

简介:

IBM、波士顿制药公司 Berg Pharma、纪念斯隆-凯特琳癌症中心(Memorial Sloan Kettering)、加州大学伯克利分校(UC Berkeley)及其它机构的研究人员,正在探索如何利用人工智能和大数据,找到更好的疾病治疗方法。

但是,在医疗领域充分利用这些计算工具面临的最大挑战是,这方面的海量数据被束之高阁——或者说从一开始就没有数字化。

早期的医学研究成果或病人的病历,往往锁在医药公司的档案或医生办公室的文件柜中。

病人的隐私问题、公司间的利益冲突以及纯粹缺乏电子病历,阻碍着医疗领域的信息共享,让每一次治疗都像一个孤立的事件。如果医疗领域的信息共享能取得进展,人们很有可能发现更具普遍意义的治疗方案。

加州大学旧金山分校的讲师迈克尔·凯泽(Michael Keiser)指出,当你能够对10万个病人的临床试验数据、基因组数据和电子病历进行分析时,与以往只能接触少数病人的信息相比,你将能发现以往所不能发现的治疗方案。

鉴于这样的前景,一些组织开始着手将医疗数据整合在一起。

去年年底,美国临床肿瘤学会(American Society of Clinical Oncology,ASCO)宣布了旗下“CancerLinQ”项目的初步进展情况。“CancerLinQ”是一个“快速学习系统”,允许研究人员进入、访问和分析匿名癌症患者的病历。

今年4月,一个有众多主要制药公司参与的非营利性组织——“癌症生命科学协会CEO圆桌会(the CEO Roundtable on Cancer)”,宣布推出PDS计划(Project Data Sphere)。该计划将打造一个第三阶段癌症临床试验数据共享和分析平台,初始数据集已由阿斯利康、拜耳、新基医药(Celgene)、纪念斯隆-凯特琳癌症中心、辉瑞、赛诺菲等共同提供。

这些数据已去除患者的个人信息,并进行了统一编号,供生命科学公司、医院、医疗机构以及独立研究者可以免费使用。他们可以访问平台内置的分析工具,或者将数据插入到自己的软件中。

癌症CEO圆桌会议首席执行官马丁·墨菲(Martin Murphy)表示,PDS计划可能有助于发现鲜为人知的癌症候选药物,这些药物可能对某些癌变有一定的疗效。而在某一特定研究中,这些药物可能会因为没有达到研究的主要目标而被抛弃。

其它推进医疗领域信息共享的努力还包括:由从多医疗机构、研究型大学、生命科学公司等组建的全球基因组学与健康联盟(Global Alliance for Genomics and Health)、欧洲生物信息研究所(EMBL-EBI)维护的分子生物数据库,以及美国国立卫生研究院(National Institute of Health, NIH)成立的“生物标记共同体(Biomarker Consortium)”等。

与此同时,用大数据服务肿瘤医疗行业的初创公司Flatiron Health上月完成了1.3亿美元 B 轮融资,由谷歌旗下风投机构谷歌风投(Google Ventures)领投。Flatiron Health 打造了一个“肿瘤学云平台(OncologyCloud)”,能提取和整合病人电子病历(EMR)中的临床数据以及医疗费用数据。

该系统使在医生办公室和医院以不可持续和非结构化格式留存的数据变得有意义,从而能够对大规模癌症患者群体的治疗情况进行分析。理想情况下,它可以发现哪种治疗方法对哪些类型的癌症患者有效。

Flatiron Health 联合创始人奈特·特纳(Nat Turner)表示:“Flatiron Health专注于所谓‘真实世界’患者的临床资料。在美国,只有4%的癌症患者会参与前瞻性临床试验,因此我们正在努力提取和整合剩下96%患者的数据。”

他说:“要真正了解什么对癌症有效,其他患者正在接受什么样的治疗,以及癌症领域的研究取得了什么样的成果,相关机构应该开放“去识别(de-identified)”的医疗数据和匿名的典型病例,这是Flatiron Health愿景的一部分。”

隐私风险

可以肯定的是,推进医疗信息的开放应该非常谨慎。医疗信息是高度敏感的,所以任何隐私风险需求应慎重考虑。

医疗信息能开放到什么程度,取决于全社会所做出的让步。许多人坚定地持有这样的观点:挽救生命最重要。但受旧习惯和过时规章制度的影响,社会的转变速度还不够快,这一点加州大学伯克利分校的计算机科学教授大卫·帕特森(David Patterson)深有感触。帕特森致力于用于癌症研究的机器学习工具。

他说:“对于计算机领域的研究人员,我们习惯于互联网时间和摩尔定律。但现在我们无法让官方达成一致,让我们能够大量快餐收集数据并进行整合,这是非常令人沮丧的。”

他指出:“患者的隐私很重要,但争取癌症治疗领域取得进展同样很重要。将大量治疗信息汇集在一起的好处是,我们可以在攻克这种可怕疾病方面取得进展。”

这些接受采访的专家,还没有谁能例举出目前为止大数据等计算技术对癌症治疗带来了什么突破。毕竟,这些技术都是新的,而且医疗数据集刚刚整合在一起,临床试验又需要数年时间。

但几乎所有人都同意,在癌症治疗方面,研究人员正处于重大突破的边缘。

墨菲称,如果把攻克癌症比喻为一座高山,目前已接近顶峰的边缘,这一高度是前所未有的。

原文发布时间为:2014年06月09日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
26天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
9天前
|
分布式计算 IDE 大数据
MaxCompute产品使用合集之有多人调用大数据计算MaxCompute,我需要给他们每个人都生成ak信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1天前
|
分布式计算 监控 数据挖掘
MaxCompute的应用
【5月更文挑战第7天】MaxCompute的应用
18 8
|
6天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
8天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之DataWorks中,填写ODPS SQL任务中的参数和分区信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
22 0
|
8天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks创建 MaxCompute 资源背景信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 5
|
8天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之dataworks 同步es数据到maxcompute 遇到报错:获取表列信息失败如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
20 0
|
9天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之大数据计算MaxCompute如何限制用户只能访问特定的元数据信息,而不是整个工作空间
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
18天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。

热门文章

最新文章