【干货】大数据,你懂了吗?

简介:

演讲全文:


今天的汇报,我会首先从行业概览的角度给大家介绍一下行业大数据的发展现状;然后着重在医药行业给大家展示一些行业新领域;最后和大家谈一谈决策风险。


640?wx_fmt=png&wxfrom=5&wx_lazy=1

今年习总书记专程考察了贵阳大数据的发展状况,说明我国已经开始从战略层面关注大数据的发展问题。


数据定义世界,我们一直在用数据定义整个世界,下面是几个例子。


640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1


对于和大数据有关的一些数字我并不认同。我认为结构化的数据是自从有了人类文明或者地球文明之后才产生的,而非结构化数据是一直存在的,并且一直在以百倍、千倍的速度增长。大数据一直存在,之所以现在才被关注,只是因为它的利用程度有了显著提高而已。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


再来看定义,大数据不仅是信息资产,更包括处理信息资产的方式。大数据的四维特性是巨量、高速、多样和不确定。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


首先我介绍一下交通行业在大数据背景下的演变。大数据首先在出租车行业展现出优势,快的和滴滴改变了我们叫车和等车的体验,这对出租车行业是好事,它通过提供增值服务促进了行业发展。


随着这种体验的增长,出租车之外出现了专车,之后又出现了拼车,这不但造就了出租车行业的演变,连公交行业也受到了影响。最后出现了新兴行业倒逼传统行业的现象,北京公交和成都公交已经开启了定制化公交的项目。可以说,大数据推动了公交行业的转型。

640?wx_fmt=png&wxfrom=5&wx_lazy=1


我要介绍的另外一个行业是金融行业。大数据对金融行业的影响也是从增值服务开始的。支付宝从为银行提供增值服务到切分储蓄和贷款两个银行业专有市场,正在逐步倒逼现有银行业的转型。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


健康领域也有了很多创新产品。穿戴设备有小米手环,苹果手表,腾讯的糖大夫,谷歌的隐性眼镜等。非穿戴设备也很多,例如芯片药片,它能够产生大量的实时数据,让医生更准确的知道治疗的疗效。


虽然已经有了这一系列发展,但是自我健康管理依然只是刚刚起步,将来的自我健康管理会更加深入的与人们生活相结合,这对于早期疾病管理是非常有帮助的。


全球医疗都在面临巨大挑战。医疗成本居高不下,医保资金相对偏少,然而医疗资源却浪费严重。现在的医疗模式是实验型医疗,千人医药,却未必对每一个个体都有效。


另一个重要方面是医疗资源分布极度不均。重点医院人满为患,但是社区医院、乡镇医院、二三线城市的医院却出现了门可罗雀的景象。没有患者自然留不住医生,这又从另一个角度造成了医疗资源的浪费。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


关于医疗改革我有以下几点思考。


第一点,医疗将会走向服务化,一个是医疗数据的云化。人民医院是中国第一家通过HIMSS 7国际认证的医院,建立医疗数据标准化和大数据平台共享医疗数据,患者数据不但可以在医院内各个部门通用,而且能够共享给下属的100多家医院,实现患者在各医院间的自由转诊。


另一个是远程医疗,目前有很多实践,其中一些已经形成了业务模式。


第二点,医疗将会走向个性化。一个是要破局千人一药,以后不能所有人都吃一种药了,而是需要考虑个体差异;另一个是结果导向,根据病人的预期结果用药可以极大的减少医疗资源浪费。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


这上面是人群对于医生的比例,非洲是五万比一,美国是四百多比一。医疗资源在这个世界上是分布不均的,我们现在也想积极地为非洲做一些事情,尤其在这个领域,大数据以及远程医疗会对非洲产生非常大的帮助。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


下面,我选了一些具体案例。在蓝线之上的案例已经具有一定业务模式,甚至有些已经开始盈利。蓝线之下的案例有些正在建立业务模式,有些正在研究中。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


23andme是非常成功的一个案例,是初创行业的典型,用钱买数据,用数据产生价值。基因测序可以发现潜在的肿瘤、心血管等疾病的概率。


从2000年开始23andme这家企业就开始提供廉价的基因测序服务,这种赔本生意延续多年却收集了大量基因数据。这些基因数据有助于减短研发周期,但是却需要大量计算资源作为支撑。


近期23andme刚刚拿下一家医药公司六千万美金的订单,提供数据用于支持他的医药研究。当然国内市场也在该领域作了很多工作,例如目前已经有基云惠康,博川基因、Hi基因等。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


谷歌隐形眼镜,在医疗领域所做的研究非常超前。它利用集成在隐形眼镜表面的超微电路,实时搜集佩戴者信息。这些信息包括血糖信息,也包括体温、酒精、环境感知、光线等等。通过这些信息我们可以及时地了解自身状况,并且能够对症下药地改变使用者的生活方式。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


数字药片的概念很早就被提出了。传统的服药方式没有办法监测药物在体内发生的变化,数字药片却改变了这一点。


数字药片上有一个小小的芯片,这个芯片能够获取服药者的体内温度和药物反应效果的数据,而后通过传输芯片把这些数据传输到服药者身上贴着的一个带有接收器的膏药上,经过信号放大,最后通过手机上传到网络云。


目前全球药物浪费中有一个方面是取药而不吃,如果有数字药片,就可以监督用药者服药情况,并及时提醒按医嘱服药,仅这一点就能够在改善医疗效果的同时减少大量浪费。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


FindZebra是一个类似于谷歌搜索的疾病搜索引擎,如果在门诊看病目前的误诊率在50%左右,这个误诊率其实并不算高,即便在医院做B超、CT或者所有的化验,误诊率依然可以达到30%。


欧洲罕见病组织做了一个研究,25%的罕见病患者需要等待5到30年才能被正确诊断,罕见病的定义是两千人中少于一人。大家觉得罕见病不用太关注,但是中国现在有13亿人,罕见病有多少人?


医生是经验导向的,他的经验导向完全取决于他昨天看了什么病人,或者他对于医药行业有多少了解。有些很有名气的医生喜欢看大病,但是他未必了解罕见病。FindZebra创始人的思路是通过文件算法、机器索引的方式告诉查询者可能得了什么病,这可能比你去医生那边看还要准确,退一步说,它至少能够成为医生的一个好助手。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


下面我介绍的是一款软件,现在软件也可以通过医疗设备认证了。这是首款通过医疗设备认证的软件。它不通过药物降低血压,而是通过运动饮食建议能够帮助患者在三个月的时间内降低5个毫米汞柱的血压。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


这款软件最大的意义在于它成为了医疗设备,这也是很多公司工作的一个方向。我们可以做的分析有很多,并且不需要太多创新。如果在这个软件的基础上加入更多的及时采集设备,它就会变的更加智能。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


这款软件的意义也是非常显著的,它不但能够让患者减少用药,同时可以为医生提供持续的医疗辅助。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


GoogleX纳米粒子也是一个很前沿的项目。它的主要思路是在血管中植入一些磁性的纳米粒子,这种纳米粒子能够随血液流遍全身,并且可以和不同种类的细胞相结合产生变化。手腕上的手环可以搜集这些粒子,与此同时身体内的疾病、健康数据都被采集了出来。


GoogleX纳米粒子是未来五到十年的科技,但以现在科技的发展速度,或许将来三到五年就会有一些成果出现。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


前面有一个案例是用App的方式辅助治疗,这个案例却在尝试用App代替治疗。现在精神抑郁患者在全球有4亿人。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


人的大脑是可以被治疗的,或者通过治疗可以得到一定程度的恢复。统计数据表明80岁的老人通过四周的训练,大脑功能的某些方面能够超过20岁的年轻人。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


这个软件是在大数据的基础上做了一个头脑模型,又基于这个模型进行了一些临床实验方面的优化,最终的表现方式就是通过玩不同游戏来训练大脑的不同部位。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


它会教授大脑锻炼的普通规律和技巧,而后通过一些游戏强化人们对这些信息和解决问题路径的记忆,最后提高大脑的预测和思考能力。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


细胞医学的主要做法是从癌症病人体内取出一个T细胞,也就是白细胞,这个白细胞相对比较健康。


我们对这个细胞重新激活,再放回到病人体内,放回去的细胞会做两件事情:


第一,它看见了癌细胞就立即进行几何倍数的分裂。


第二,对癌细胞进行惨无人道的攻击,与癌细胞同归于尽。目前这种方法已经有了成功挽救生命的案例,并且正在经历临床实验和更进一步的研究。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


我们在谈大数据的时候必须要认识到它的风险,大数据为什么会有风险?从原始数据到数据精炼到决策,这是大数据决策的一个方式。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


看一下大数据,09年Google宣布预测流感趋势只有一天延迟,但这却是一个非完全数据,09年谷歌并没有预测到猪禽流感、2010年华盛顿大学发现谷歌的预测比美国疾控中心还差25%、2013年自然杂志发现谷歌预测值比实际高出50%、他是基于过去的数据做出的建模,这种建模可能一个月有效,但是长期未必有效。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


大数据同时也会说谎,能够产生数据并记录下来有可能是一部分人的特权。在美国2012年桑迪飓风袭击美国东海岸的时候,他们通过食品采集发现飓风过后一天夜间活动会增加,是因为飓风之后有很多人发烧了,要外出看病。


曼哈顿关于飓风的推特数量是最多的,所以大家推测曼哈顿是飓风最严重的地方,但是他们忘记了在受灾更严重的地方,人们在飓风来临时没有办法上网。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


其实大数据也会扼杀创新。黑莓对客户非常了解,他通过对于用户习惯的纪录建立了预测模型,按照用户的喜好设计下一款产品。但是长远的结果是,大家见到越来越多自己想看见的东西,却再也看不见让自己惊喜的东西。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


大数据有隐私风险。从Medpoint收集患者近五年的处方记录、购药记录和可能的疾病信息,帮助保险公司发现高危人群、降低成本、减少保费支出和增加盈利。当有一天你特别着急的时候,你找保险公司,保险公司说对不起,我不会给你投保,因为你可能明年就会得肿瘤。


这就是为什么基因数据要受到监管,一般的医疗机构已经没有办法给大家做预测了。Intelliscript提供类似信息给保险公司,以获得5倍、10倍甚至20倍的收益。我们大家作为大数据的推动者,必须规范大数据的正确使用,保证数据安全和隐私。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


最后看一下大数据的发展阶段,无论你在公司、在企业,都会经历这样的几个阶段:


第一个阶段,数据是原始割裂的;


第二个阶段,数据会相互共享,但是这是一种结构化的共享,是严格控制的共享;


第三个阶段,会出现数据池,现在已经有很多行业的数据池在产生,包括我们今天谈到的病例大数据、医疗云;


第四个阶段是共同创建,创建一些数据俱乐部,达到所有人数据共享和共赢的状况。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


在这几个阶段中间,你准备好了吗?大家对于自己的行业和自己的公司可以做一个简单的评估,你是处于哪一个阶段。


第一对于机遇的把握,你是现在还没有办法把握将来的机遇,还是说你今天已经非常熟悉、能够熟练掌握


。第二,对于将来可能出现的机遇你并不是非常清楚,其实你有很多想法,对业界发展动态有很深的了解,并且有你自己的理解。在数据的丰富程度上,你现在是有少量的数据,还是已经累积到大量的数据?


在大数据的相关活动中你是被动的还是积极的。这中间有四个角色。现在很多人处于资源浪费者的位置,尤其是传统企业,例如医疗行业,也有一些是企业管理专家,他对于结构化的数据有非常高的把控,并且能够适度的应用;另外一些是真正的胜利者,真正的胜利者会利用数据的力量改变我们的业务模式。


因为大数据存在的目的有两个:


一个是优化我们的业务模式。


另一个则是要产生一个新的市场、新的业务模式,以及对现有传统企业的巨大颠覆。


640?wx_fmt=png&wxfrom=5&wx_lazy=1


在这几个方面可以看一下你公司的文化,是不是所有的投入都要考虑回报率,谷歌有个研发部门从来不考虑他的投资回报率,他的所有投资都是天马行空的。你是不是鼓励这种智慧,鼓励这种意见思想,在人才的角度是不是有足够的好奇和反传统,是不是有足够的外部关注度。


我曾经在一家非常高效运作的企业工作,这家企业是诺基亚,但是它被击垮的那一瞬间真的很无辜。你是不是有非传统技术人员,以诺基亚为例,在公司内部有很多的人才也看到了公司将来发展方向的不足,但是很可惜当时的主流思想依然导致了公司一如既往地往硬件研发的方向走,而没有顾及到市场的变化。


最后,你是不是有专项数据,有整合外部数据的方式,有没有共享资源,有没有竞争优势的数据,这些都是你要思考的。有的时候,数据不是问题,数据太多了,只要你想要,就会有足够的数据来帮助企业实现转型。真正的问题在于你有没有认识到你身边数据的重要性。


问答环节


1 提问:一年前有个的医生说:通过泪液的方式检测血糖会产生一个延迟,所以你可以把谷歌隐形眼镜当作穿戴设备用,但是不能当做医疗用。这一点您怎么认为?


高建雄:你说的延迟,一方面我们会继续研究,另一方面我们也会通过不同的体征信息的变化更加及时地去监测到它。将来的隐形眼镜或许可以检测更多的体征信息,比如说虹膜识别,甚至可以用来作为身份验证。


2 提问:我个人是来自于法律服务行业,法律服务行业有一个痛点,律师很多时候是按小时来收费的。现在是不是我们可穿戴设备已经能够做到了解这个人是不是在思考,是不是在做事务性的工作,有这样的设备以后,律师的计费将更加精准,这个行业也将被颠覆。跟您探讨一下有没有这种可能性?


高建雄:你这种自我解剖、自我颠覆的精神非常值得我们学习。我觉得从技术的角度上是可以实现的,但更多的是在人文的角度上、文化的角度上会不会这样做。即便律师作为一个服务行业,我们也要尊重律师自身的隐私。


3 提问:医疗数据里面,如果数据有缺失,你们是怎么处理的?舍掉这样的样本还是有一些其他的处理?


高建雄:首先大数据不可能是全局的,所以大数据本身就是基于现有采集的数据,然后再进行子集分析的。理论上他可以利用未缺失的那些寻找规律,因为本身你不可能找全集的研究,至于说你缺失了两段或者是四段,或者都没有缺失,你都是进行他的子集研究,如果存在逻辑的话,他的逻辑不会因为缺失这两段而发生变化,但是这同时就是我们的数据风险,你需要去评估你缺失的这两段是不是关键信息。


4 提问:之前给北大医学院做手术后的跟踪研究,很多用户在回访的时候很多关键的数据是没有的,即便有可穿戴设备,很多信息他也不愿意记录。这个问题你们怎么解决?


高建雄:你没有办法拿到全数据,尤其是患者如果不配合的情况下,你的研究被误导。


在这种情况下,第一,是不是有更加先进的方式能够采集数据,因为用户主动输入的话,这些数据往往会出现很多的问题。一定要有一些新的方式来进行数据的采集,更加自动的,包括现在有很多,大家觉得自己有隐私的话,那就大错特错了。


如果你有手机,你一天的行动都被记录。如果你有车,你一天的行车轨迹,在哪里,什么时间,停了几次,是会被摄像头自动记录的。实现数据的自动记录可以大幅度提高数据采集的质量。


5 提问:您一直在谈数据很重要,包括说到大数据上升为国家战略,您这个公司也是跨境的公司,大家的医疗数据在国内是怎么样一种保护的方式?最近谷歌在欧洲也受到跨境数据流动的问题。国外有什么样的监管?


高建雄:数据监管是一个非常严肃的话题,尤其是患者隐私。如果我们泄露了一个人的隐私,会面临巨额的罚款。对于我们这样的医疗企业监管非常严,但是对于互联网企业,他们采集了很多相关的患者信息,或者人群的信息。比如说你的手环采集到你的运动和健康相关的信息。


我们在呼吁企业自律的同时,也期待行业组织能推动相关的数据安全立法。将来数据必须要被监管,但是监管的同时要好好利用,这是一个世界性的难题。


谢谢大家!


原文发布时间为:2017-03-12

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 数据采集 消息中间件
漫谈对大数据的思考(上)
“大数据”已跃升为我们行业中最受炒作的术语之一,但炒作不应使人们忽视这样一个事实,即这是数据在世界上的作用真正重要的转变。
漫谈对大数据的思考(上)
|
存储 分布式计算 资源调度
大数据1
大数据1
505 0
大数据1
|
SQL 弹性计算 运维
初识大数据
了解大数据
91 0
|
存储 分布式计算 大数据
什么是大数据?
  然而,什么是大数据?至今也没有一个比较权威的定义。   麦肯锡曾给出大数据的定义是:大数据是指大小超出了常规数据库工具获取、存储、管理和分析能力的数据集合。   维基百科也给出类似的定义:大数据指的是所涉及的数据量规模大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。   一句话,大数据就是数据量大?!   我觉得,这句话说了等于没说,还容易让人误解。你以为数据量大才是大数据?
334 0
|
新零售 存储 Java
关于大数据最常见的10个问题,必看!
1、云计算与大数据是什么关系?   云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。
1183 0
|
分布式计算 大数据 Hadoop