石勇:《大数据时代》三个结论都不完整

简介:

“大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据来源于政府、企业、网络与开源数据(每个人)。我们研究大数据的科学问题还需要时间,大数据应用问题更需要时间。”7月9日,发展中国家科学院院士、中科院虚拟经济与数据科学中心主任石勇在以“新金融规范、创新与发展”为主题的首届紫金峰会上表示。该峰会由浙江大学和泰然集团联合主办。

大数据面临的三大挑战

“十三五”规划纲要提出:实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。

“去年的大数据战略说的很清楚,首先是提高采集、有效整合,深化政府数据和社会数据关联分析、融合利用,然后是统一共享交换平台,研究制定数据开放、保护等法律法规,完善大数据产业链,加快关键技术攻关,促进大数据软硬件产品发展。”石勇表示。

同时,他指出,目前大数据仍面临着三个挑战:第一,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理已成为各国大数据专家共同关注的前沿科研问题;第二,如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模,这一问题的突破是实现大数据知识发现的前提和关键。第三,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响,由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论和技术提出了新的挑战。

《大数据时代》结论不完整

“大数据背后是 数据科学 ,而数据科学是关于数据收集、管理、转换、分析与应用的科学,其核心是研究从数据中获取知识。很多人看过《大数据时代》这本书,但书中的三个结论都是不完整的。”石勇表示。

据了解,该书提出,大数据应该既要全体,又要抽样,大数据的抽样比小数据的抽样更具有普适性;大数据应从粗糙中寻求精确;大数据应从相关关系中把握因果关系与必然关系。

对此,石勇称,“大数据应该分析全部,我们能群体吗,这是反科学的。但是大数据来了以后,数据量大了样本就大。大数据粗糙中寻找精确。大数据的主要原理在于预测,这是科学的方法。”

此外,石勇还提到了大数据与金融决策的关系,大数据的应用等。目前中国大型的商业银行和保险公司的数据量已经超过100TB,中国金融行业已经形成共识——数据是重要资产。中国金融行业已步入大数据时代的初期阶段,并且呈现快速发展势头,未来的金融业将开展新一轮围绕大数据的IT建设投资。

“优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。”石勇说。

而在大数据的应用方面,石勇说,“我国的个人征信评分系统是世界第一的”。据介绍,我国的个人征信系统基于8.5亿消费人的记录,服务于日常金融活动。截至2010年5月31日,个人征信系统查询次数达6.5亿次,实现了真正意义上的基于大数据挖掘的金融工程理论与实践。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 算法 大数据
大数据开发是先学习Hadoop还是spark,看10万程序猿所留下的结论
从目前我遇到过的面试者和看过的简历来看,凡是没有过大数据项目经验的人,简历写出花来都是扯淡。部署一个集群,装一个Hive,HBase什么的根本就不叫大数据(有的公司甚至部署Hadoop只用HDFS,每天处理5GB数据,这是我面过的一个人告诉我的他的工作经验)。
1831 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 3.6 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第3章,第3.6节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1062 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 2.3 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第2章,第2.3节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1120 0
|
大数据
《大数据、小数据、无数据:网络世界的数据学术》一 1.5 结论
本节书摘来自华章出版社《大数据、小数据、无数据:网络世界的数据学术》一 书中的第1章,第1.5节,作者:[美] 克莉丝汀L. 伯格曼(Christine L. Borgman),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1035 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0