《大数据分析原理与实践》一一1.2 哪里有大数据

简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第1章,第1.2节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 哪里有大数据
大数据是无处不在的。
大数据包括那些数目极庞大的网络数据。有自媒体数据(比如社交网络),有日志数据(比如用户在搜索引擎上留下的大数据),还有流量最大的富媒体数据(比如视频、音频)等。例如,淘宝每天的数据量就超过50 TB;新浪微博晚高峰时每秒要接受100万次以上的请求;美国YouTube网站一分钟有100小时的视频被上传。
大数据包括企事业单位数据和政府数据。一家医院一年能收集包括医疗影像、患者信息在内的500 TB数据,用于预测、预防、改善等;中国联通每秒记录用户上网条数近百万条,一个月大概是300 TB;国家电网信息中心目前累计收集了2 PB的数据。
大数据包括我们身边的一些公用设施所记录的数据。就监控而言,很多城市的交通摄像头多达几十万个,一个月的数据就达到数十PB,还有基本上所有的超市都覆盖着摄像头,这些都可以是大数据的基本来源并进行挖掘利用;在北京,每天用公交一卡通的乘客有4000万刷卡记录,而每天地铁刷卡的乘客也有1000万,这些数据可以用来改善北京的交通状况,优化交通路线。
大数据还包括国家大型公用设备和科研设备等产生的数据。例如,波音787每飞一个来回可产生TB级的数据,美国每个月收集360万次飞行记录;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒就要测量一次,数据汇集用于检测叶片、变速箱、变频器等的磨损程度;一个具有风机的风场一年会产生2 PB的数据,这些数据用于预防维护,可使风机寿命延长3年,极大地降低了风机的成本。
工业领域也产生了大量的数据,GE能源监测和诊断(M&D)中心每天从客户处收集10千兆字节的数据;长虹集团有限公司等离子显示板制造中生产流程数据涉及75条组装线,279个主要生产设备,超过10 000个参数,每天3000万条记录,大约10 GB;杭州西奥电梯有限公司的数字化车间监控超过500个参数,每天产生约50万条记录;浙江雅莹服装有限公司数字化生产线由15个子系统组成,超过1000个参数,每天产生约80万条记录,约1 GB。
大数据甚至还包括一些地理位置、基因图谱、天体运动轨迹的数据。总之,任何可以利用数据分析来达到目的的地方就会有大数据的存在。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
97 1
|
4月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
59 0
|
1月前
|
算法 大数据 数据挖掘
python数据分析——大数据伦理风险分析
大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。
49 0
|
1月前
|
存储 大数据 数据挖掘
python数据分析——大数据和云计算
大数据和云计算作为当代信息技术的两大核心驱动力,正在以前所未有的速度改变着我们的生活、工作和思维方式。它们不仅为各行各业的创新提供了强大的技术支持,更是推动了整个社会的数字化转型。 从大数据的角度来看,它的核心价值在于通过对海量数据的收集、存储、分析和挖掘,发现其中的关联性和趋势,从而为决策提供更为科学、精准的依据。无论是商业领域的市场预测、消费者行为分析,还是公共服务领域的城市规划、交通管理,大数据都发挥着不可或缺的作用。同时,随着物联网、传感器等技术的普及,大数据的来源和种类也在不断扩展,这使得我们能够更全面地认识世界,把握规律。
47 0
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
496 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
4月前
|
数据采集 数据可视化 数据挖掘
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
【大数据实训】基于当当网图书信息的数据分析与可视化(八)
83 0
|
4月前
|
数据采集 分布式计算 数据可视化
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
【大数据实训】基于赶集网租房信息的数据分析与可视化(七)
75 0
|
4月前
|
分布式计算 Hadoop Java
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
52 1
|
4月前
|
存储 分布式计算 大数据
【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)
【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)
67 0
|
4月前
|
分布式计算 资源调度 大数据
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
152 0

热门文章

最新文章