6个创造性案例示范如何玩转医学大数据

简介:

导读:生物医学已经并且正在产生海量的数据。对这些数据的开源和利用将产生巨大价值。首届开放科学奖(Open Science Prize)正致力于找到开发利用这些数据的好点子。该奖项自去年10月发布后,接收到了来自45个国家96支队伍的参与。昨天,专家小组宣布了六个进入决赛的名单,从模拟果蝇大脑、病毒传播可视化、到创建罕见病基因库,让我们看看这些进入决赛的队伍是如何玩转生物大数据的。

◆ ◆ ◆

关于开放科学奖

生物医学研究产生了海量数据。许多《IEEE综览》(IEEE Spectrum是电气电子工程师学会发行一个杂志,是电气电子工程师学会的旗舰级出版物,致力于探索前沿科技的发展实现与应用——译者注)所关注介绍的诸如传感器、机器人及其它相关技术会产生出太字节(terabyte, 240字节——译者注)至拍字节(petabyte,250字节——译者注)的数据,而这只是在世界范围内所存储的健康信息容量中微不足道的部分。

如今,三家投资机构正在努力刺激工具和平台的开发,来提高研究者获取和使用这些数据的能力。在华盛顿特区举行的第7届医疗数据研讨会上,(美国)国立卫生研究院(National Institute ofHealth,简称NIH)、总部在英国的威康信托基金(Wellcome Trust)以及霍华德?休斯医学研究所(Howard Hughes Medical Institute)宣布了首届开放科学奖(Open Science Prize)的6支决赛队伍名单。

开发这些类型的工具的部分问题是没人知道谁该为它们负责。(美国)国立卫生研究院的数据科学副主任菲利普?伯恩(Philip Bourne)说:“数据的产生是全球性的,但是数据本质上是由国家管理和资助的。

去年10月发布后,来自45个国家96支队伍参加了这个比赛。昨天,专家小组宣布了六个进入决赛的名单,他们将获得8万美元的资助,在接下来的六个月里继续开发他们的原型。

好了,不多说了,让我们看看这些进入决赛的队伍是如何玩转生物大数据的:

◆ ◆ ◆

MyGene2

罕见疾病并不是你所想象的那么罕见。如今,在美国有超过6千种已知罕见疾病发生在大约2千5百万人的身上。但是,超过一半的家庭经历了基因检测而无法确诊为疑似的罕见疾病。一个名为MyGene2的网站(https://www.mygene2.org/MyGene2/)给家庭和临床医生带来一个分享关于罕见疾病的健康和基因信息的地方,以此来推动检测和发现引发疾病的新的罕见情况和基因。

▲MyGene2页面-根据基因或者家庭ID进行搜索

20160519113218673.jpg

每个(疑似)罕见疾病家庭信息库都涵盖了故事-健康信息-基因数据-联系方式等资料。其中,故事部分介绍包括照片,患者基本情况,和一个有血有肉的真实故事。以96号家庭为例,作者生动地叙述了自己的女儿Ava患病及被确诊的整个过程。

20160519113219985.jpg

健康信息则包含了这个家庭成员包括“发热”“出汗”“头疼”等一系列病症的信息。

20160519113219649.jpg

基因数据部分则可以根据” Inheritance Model”和” Confidence in Pathogenicity”的不同维度生过滤生成报告,发现这个家庭的candidate gene。

20160519113219818.jpg

  ◆ ◆ ◆

Nextstrain

为了干预和阻止流行病的爆发,科学家们需要尽快得到来自病原体的基因数据。Nextstrain项目从世界各地的研究团体聚集了大量的基因数据近乎实时地进行了病毒传播的可视化。例如,可以查看一下他们关于目前寨卡病毒(Zika virus,http://nextstrain.org/zika/)演变的图片。

20160519113219858.jpg

这一交互可视化作品记录了从2014年11月到现在Zika病毒的时时变化情况。可以按照“地理位置”和“样本时间”两种维度进行划分。

◆ ◆ ◆

OpenAQ

根据世界卫生组织(World Health Organization)的说法,空气污染是导致8分之1全球死亡病例的罪魁祸首,然而空气质量数据一直被存储在不起眼的网站上,难以访问,同时格式也不一致。OpenAQ平台(https://openaq.org/#/)原型将数据进行了合并和标准化,成为公众可得、实时的空气质量数据。它已经收集和分享了来自13个国家500多个地点的970万空气质量检测数据。

20160519113220628.jpg

  你可以通过地图查看全球各国的Pm2.5数值。

20160519113220547.jpg

  当然也可以直接用代码拿走你需要的城市和国家的API原始数据。

20160519113220250.jpg

  ◆ ◆ ◆

Brainbox

20160519113220619.jpg

能从互联网上得到的脑成像数据量是难以置信的。相对于其它类型的数据,神经成像数据需要更充足的人力,例如:策划和编辑图像。Brainbox是一个在线实验室,它被设计成方便研究人员访问的脑成像数据库(特别之处是无需下载),并启用分布式协作让每个人能分享努力。(https://www.openscienceprize.org/p/s/1838127/)

◆ ◆ ◆

NeuroArch

20160519113220277.jpg

尽管在映射整个人类大脑上付出了巨大的努力,一个更短期的目标是映射一个更小的大脑,比如果蝇的大脑,它有着超过70%的涉及人类脑部疾病的类似基因。果蝇大脑瞭望台项目(Fruit Fly BrainObservatory project,https://www.openscienceprize.org/p/s/1998747/)将开放一个名为NeuroArch的开放图像数据库平台,这个平台存储和处理跟果蝇大脑有关的信息,包括位置、形状、每个神经元的连接。

在一个地方存放所有这些数据,可能形成一个模拟的果蝇大脑,在通过遗传或给药进行修改时,可以看到发生的相关变化。

◆ ◆ ◆

OpenTrialFDA

当美国食物和药品管理局(U.S Food and Drug Administration)批准一种药物时,该机构公开发布一系列关于该药物的信息,通常包含先前未公开的临床试验。尽管这些信息相当有价值,但难以获得、收集和搜索。OpenTrialFDA努力建立一个用户友好的网站界面让任何人能访问相关信息,还提供应用接口(API),允许第三方平台接入和搜索数据。



本文转自d1net(转载)


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
104 0
|
3月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
|
4月前
|
自然语言处理 搜索推荐 大数据
Python大数据之PySpark(七)SparkCore案例
Python大数据之PySpark(七)SparkCore案例
37 0
|
4月前
|
分布式计算 大数据 数据处理
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
34 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据hadoop练习___出租车MRWordCount案例
大数据hadoop练习___出租车MRWordCount案例
24 0
|
4月前
|
搜索推荐 大数据 C++
C++系列案例-大数据减法-绘制余弦曲线-兔子数量-快速排序
C++系列案例-大数据减法-绘制余弦曲线-兔子数量-快速排序
|
5月前
|
机器学习/深度学习 自然语言处理 Cloud Native
探索在云原生环境中构建的大数据驱动的智能应用程序的成功案例,并分析它们的关键要素。
大数据索引: Google使用大数据索引来构建其搜索引擎,并实时处理全球各种语言的文本数据。 云原生基础设施: Google Cloud提供了强大的云原生基础设施,支持大规模数据存储和处理。 自然语言处理: Google使用自然语言处理技术来理解和索引文本数据,从而提供高质量的搜索结果。 实时搜索: Google的
126 0
|
7月前
|
SQL 存储 分布式计算
大数据Hive入门案例
大数据Hive入门案例
54 0
|
8月前
|
弹性计算 负载均衡 并行计算
实战案例分析:ECS在电商和大数据领域的应用
本文通过实际案例分析,深入探讨了云服务器ECS在电子商务和大数据领域的应用。在电子商务网站部署方面,我们介绍了如何使用ECS构建稳定的电商平台,包括弹性伸缩和负载均衡的实践。通过示例代码,读者可以了解如何创建ECS实例、配置负载均衡器,以及设置自动伸缩策略,以应对不同流量情况。
324 1