大数据治肿瘤 “郎才女貌”,新屿信息如何给它们做 “嫁衣”

简介:

image

前言:关于大数据常常出现在那些创业故事的结尾,比如进行大数据挖掘,潜力无限。那听起来特别像 “王子与公主从此过上了幸福的生活”。其实言下之意有两个:①大数据这个事儿现在还没做;②大数据属于更高级别的应用。

关于大数据的应用,肿瘤治疗和预防恐怕意义更加突出。肿瘤是一种高度复杂和个性化的疾病,急需更为精准的治疗手段,而大数据分析无疑提供了非常有利的武器。那么大数据在肿瘤治疗领域的可以如何施展?又会面临哪些困难?以及前景究竟如何?

一大波癌症在靠近

看到过这样一个数字,经过人类社会的努力,癌症在过去 50年 的治愈率仅仅提升了不到 8%,是所有疾病中提升最慢的一种。无论这个数字靠不靠谱,癌症起码到今天仍是一种极为恐怕的疾病。即便是美国这种传说中癌症 5年 生存率很高的国家,也会有安吉丽娜.朱莉这种为了避免不确定的风险而切除乳腺的事件。

也是在近几年,环境恶化、人口老龄化、医疗负担、不健康生活方式等因素都促使我国的公众和舆论对癌症的关注越来越多。

对于普通人来说,发病率和死亡率是两个最直观、最容易理解的概念。就在这两天,丁香调查编译了一篇 2016年1月 份发表在《CA:A Cancer Journal for Clinlicians》上的文章,披露了我国各类肿瘤疾病的发病率和死亡率。这应该是有关中国癌症领最新的研究文章了,而该杂志的影响因子是 144.8(翻译:相当权威)。

这篇文章题为《Cancer Statistics in China, 2015》,是由中国医学科学院肿瘤医院、国家癌症中心赫捷院士、全国肿瘤登记中心主任陈万青教授等人撰写的。

就是这篇文章提供的数据显示,2015 年中国预计有 429.2 万例新发肿瘤病例和 281.4 万例死亡病例,相当于平均每天 12000 人新患癌症、 7500 人死于癌症。男性所有肿瘤发病率 2000 年至 2011 年略显稳定(年增长 0.2%),女性则较为显著(年增长 2.2%),癌症死亡率从 2006 年以来出现显著下降(男女分别年降低 1.4% 和 1.1%)。

但我国癌症的现状仍然非常严重,已经严重到什么程度?2015年9月,国家 16 个部位专门就癌症防治出台了三年防治行动规划,并在规划中对我国的癌症形式做了两个方面的定性:①是导致我国居民预期寿命受损、因病致贫、因病返贫的主要疾病,②已成为我国面临的重大公共卫生问题之一。

目前人们已经充分认识到,早期筛查以及改变不良生活习惯对癌症防治的重要作用。美国顶尖的癌症中心做过一项研究,外在因素占癌症发病率比例的 90%~95%,而其中,滥用烟草占 25% ~ 30%,不良饮食和肥胖占 30% ~ 35%,单纯仅此二项之和就占据 55%~65%。所以,癌症这种疾病充分说明了 “no zuo no die”!

不过,对于最终阻止一种疾病而言,治疗仍然处在非常核心的地位。但癌症本身是一种高度复杂且高度个性化的疾病。不仅癌症的种类非常多,而且即便是同种癌症也会分为很多类型,而这些类型又受每个患者自身因素的巨大影响。所以,癌症治疗是个对精准医疗、个性化医疗需求非常高的领域。(部分癌症是由于某些特定基因高频突变所致,但更多癌症是由很多的发生概率极小的基因突变所致。资料来源:CSDN)

“ 上个世纪 90年 代开始循证医学逐渐代替经验医学成为临床研究与实践的主旋律,” 在采访最一开始,新屿信息创始人兼 CEO 季春晖说我们先要就此达成一个共识,“ 现在随着计算机网络技术的发展和大量医学数据信息的出现,我们进入医学大数据的时代。尤其是人类尚未完全攻克的肿瘤,对于结构化医学数据的需求尤为迫切。肿瘤大数据能从流行病学、治疗、预后等等方面对肿瘤预防诊治提供前所未有的帮助,并且与精准医疗的结合更是让我们看到攻破肿瘤的新希望。”

正是基于这样的思考,季春晖于 2013年 创办了新屿信息,针对肿瘤临床科研数据管理和患者管理的两大需求,致力于为医生提供临床肿瘤高效科研及患者管理的解决方案。

大数据的医疗应用

大数据早已是人们耳熟能详的概念,而关于它的应用场景,很多人也都会有一些模模糊糊的概念。其中最典型的一个就是在电商当中,根据用户的偏好为用户推荐可能青睐的商品。而在医疗领域,人们关于大数据的应用也早已施展了充分的想象。

大体上在创业公司里面,这些应用场景包括两个方面:

①在健康管理和疾病管理领域,通过智能设备对每个用户的某个或多个数据进行监测,帮助医疗机构或健康管理机构能够更全面、精准的掌握用户的健康状况,并在某个数据异常时向用户发出预警;

②在基因监测领域,基因公司通过基因检测能够帮助用户在基因层面更加精准的了解自己的 “过去、现在和将来”,并基于潜在可能存在的风险,为用户提供相应的健康管理服务,以避免疾病的发生。

虽然这些设想中的场景尚未完全到来,但从中可以看出,人们已经充分认识到了大数据能够给医疗带来的益处。而且,如果有人心怀理想,这种益处甚至可以超越商业利益本身。也许肿瘤治疗是实现这种理想再合适不过的领域,但有可能面临的困难也相当大。

①需要打破重重壁垒受限于传统医疗体系,医疗信息往往被封闭在一家医院的院墙之内,而且即便是在医院内,不同科室之间的信息也难以相互联通。信息无法共享,导致每个医生、科研人员所能掌握的数据量非常有限。

②样本量小成本巨大 受到信息割裂现状的影响,肿瘤研究的样本数量往往在百例左右。“据我们了解,单个医生所做的研究,样本数量往往在 100 个左右,多中心联合的研究大概在 400 个左右。” 季春晖说,“但成本却非常高,许多 400 例规模的多中心项目成本大概在 1000 万左右。”

③数据结构化比例低 大规模数据分析的前提是数据的电子化,实际中,肿瘤患者个人的检测数据量不仅巨大,而且基本是以纸质形式保存。“一名肿瘤患者病历的结构化存储,往往要花掉一个医生两天的时间。” 季春晖说,“即便在美国,也仅有 4%的患者数据被结构化了。”

正因如此,即便在美国,尝试肿瘤大数据的创业公司也炙手可热。就在今年1月 初,Flatiron 宣布完成有制药巨头罗氏领投的 1.75 亿美元 C 轮融资。而在此前,这家公司分别于 2013年 完成 80 万美元的 A 轮融资,和在 2014年 来自 GoogleVentures1.3 亿美元的 B 轮融资。

Flatiron 做的就是应用大数据帮助肿瘤的精准治疗。而他们计划完成的一项重要工作,就是将全美肿瘤中心和其他医疗机构的肿瘤临床数据进行系统化、机构化。和 Flatiron 类似,新屿信息想在中国进行类似的探索和尝试。

新屿信息:以肿瘤科研为切口

新屿信息的核心产品是 crabyter 科研宝,顾名思义,主要定位是为临床肿瘤医生或机构的临床研究提供服务。

科研宝于 2010年 开始研发,于 2014年3月 正式上线,具备八项功能,包括课题管理、随访管理、统计分析、单一病人视图、多源数据入口、数据质量管理、肿瘤知识库、移动端辅助管理等,即将推行生物样本库管理、基因数据分析等功能。

科研宝的应用场景主要包括两个:①医生间的诊疗科研社区,如包括随访在内的患者管理,以大数据为基础构建精准医疗模型;②企业等第三方机构提供的服务,如药企、CRO 公司、基因公司为医生科研提供的在线服务等。而如前所言,大数据分析的关键一步是实现数据的结构化。

“我们首先按照国际诊疗标准构建一个数据模型,然后通过引导模块帮助医生便捷地将数据填进去。” 季春晖介绍,科研宝提供的是一个在医院原有信息系统之外的第三方应用工具,提供数据结构化、自动统计、专业分析等服务,医生登陆后即可进行科研、患者管理等。

此外,科研宝平台还支持医生、科研机构多中心合作。研究发起后,科研宝提供多中心远程管理、中心稽查,以及研究总结阶段的系统 + 统计的综合服务。

如季春晖所言,新屿信息主要提供的是工具,并没有主要挖掘医院已有的患者数据的计划。“如何拓展我们的用户,关键切中医生的需求。” 季春晖说,“肿瘤非常不同的是,超过 90%的患者分布在前 800 家医院,尤其是大的三甲医院。而这些医院里的医生对科研都有非常强的需求。”

集中度高有它的好处,但也是市场的目标用户群体非常明确,也将意味着同类产品的竞争可能更激烈。“这类产品本身就非常复杂,对研发团队要求很高。” 新屿信息的研发团队目前已有 50 多人,“而且数据沉淀量越大对用户的粘性就会越高,尤其是多中心合作,用户的转换成本非常高。”

这其实也就意味着,同等级别产品的竞争,市场覆盖速度将非常重要。目前,在全国范围内,科研宝平台上共有 4151 位临床医生,486 个肿瘤科室,399 个临床课题,以及 20 万例入组病例。“我们与中国临床肿瘤协会、中国抗癌协会已经建立了深度合作,已有约一半的主任、副主任医生加入了我们的平台。”

2014、2015年,新屿信息已经先后完成了天使轮和 A 轮融资。

“之前我们确定的覆盖 200 家医院的目标,有可能提前完成,所以现在也在考虑与投资机构接触,进一步加快扩张。” 在谈到 2016年 计划时,季春晖说,“今年的计划是继续市场扩张,覆盖更多的医院,推动基因公司、CRO 公司、移动医疗公司合作,做强产品线,同时将我们增值服务的收费做得更加标准化。”

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 人工智能 运维
大数据分析:探索信息世界的钥匙
在当今信息爆炸的时代,大数据分析成为挖掘宝藏般的技术和方法。本文将介绍大数据分析的基本概念、技术与方法,并探讨其在商业、科学和社会领域中的广泛应用。从数据收集和预处理到模型构建和结果解读,大数据分析为我们揭示了信息世界的钥匙,为决策者提供了有力的支持。
|
2月前
|
SQL 存储 分布式计算
maxcompute配置问题之配置mc内容如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
30 1
|
7月前
|
SQL 存储 分布式计算
MaxCompute元数据使用实践--项目信息统计
MaxCompute的租户级别Information Schema从租户角度提供项目元数据及使用历史数据等信息,您可以一次性拉取您同一个元数据中心下所有Project的某类元数据,从而进行各类元数据的统计分析。
475 0
|
4月前
|
数据采集 数据可视化 数据挖掘
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
83 0
|
4月前
|
数据采集 分布式计算 数据可视化
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
75 0
|
4月前
|
SQL 分布式计算 MaxCompute
这些警告信息是MaxCompute在执行SQL查询时生成的
这些警告信息是MaxCompute在执行SQL查询时生成的
34 3
|
4月前
|
监控 安全 Java
【Java】Spring Cloud 智慧工地信息云平台源码(PC端+APP端)项目平台、监管平台、大数据平台
【Java】Spring Cloud 智慧工地信息云平台源码(PC端+APP端)项目平台、监管平台、大数据平台
80 0
|
5月前
|
搜索推荐 大数据 数据处理
大数据:解析信息时代的数字浪潮
大数据:解析信息时代的数字浪潮
44 0
|
5月前
|
SQL 分布式计算 调度
在MaxCompute中,你可以通过SQL语句来查询和导出实例的运行状态和时间等信息
在MaxCompute中,你可以通过SQL语句来查询和导出实例的运行状态和时间等信息
50 5
|
8月前
|
存储 数据可视化 大数据
大数据:挖掘无尽的信息金矿
大数据已经成为数字时代的重要驱动力,它不仅改变了我们的商业模式、科学研究和社会运作方式,还为创新和发展带来了无限的机遇。通过分析和利用大数据,我们能够更好地了解世界的运行规律,做出更明智的决策,推动社会的进步。
93 2