《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.2 编程技能

简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.2节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.2节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2.2 编程技能

不管我们如何将数据科学描绘成对知识、真相的极具魅力的追寻过程,正如我们所提到的,数据科学也会有一些杂乱。这只是一种保守的说法,和数据打交道具有超出想象的大量的不确定性和混乱,不幸的是,这些混乱经常早早地出现在我们尝试收集和准备数据的时候。这些过程是很多数据统计的课程从来没有为学生们准备的,教授直接拿出准备好的相当整洁漂亮的数据集,可以直接导入到数据分析工具内。而一旦学生们离开温暖的课堂时,他们将会立即意识到世界是不规则的,充满了混乱的,而数据(以及后续的分析过程)则是这个混乱世界的真实反映。
在数据科学中有一个冰冷、惨痛的教训:获取到的数据具有大量的不同的格式、状态和参差不齐的质量。数据可能嵌入在非结构化或半结构化的日志文件中,或许需要从网络站点去搜刮,更有甚者,数据来源于极其复杂令人心烦的数据格式,如XML。但是,我们也需要找到方法来收集、整理数据,将其调整到能支持深入分析的数据格式。虽然这些工作可以凭借极大的耐心、文本编辑器、明智地用暑期实习生来完成,但是长远看来,编写程序脚本来完成,可以提供更多的功能性和灵活性和高效性。学习基本的编程技能也会为数据处理提供更多的可能性。这样可以随意接受不同格式的数据并将其转换为最适合分析软件使用的任意数据格式。即便现在能获取到很多称手的数据格式转换工具,它们也无法预见和适合我们将遇到的每种情况。要做到真正高效地处理数据,需要我们去适应数据,而非相反。

256位的AES密钥强度是128位密钥的两倍吗?
因为256位AES密钥长度是128位的两倍,因此对256位AES密钥很自然的猜想是前者的安全性是后者的两倍。由于所谓的“加倍的安全”,我们身边的信息安全人员要求一些项目使用256位密钥。既然如此,我们就来看看这里边的数学原理吧。第一点,正如我们说到的“位”,虽然256位确实是128位的两倍长,但是256位密钥实际上也只多了2128倍的密钥数。我们来打破书本常规并试试回答一个简单地问题:如果你能获取到世界上最快的超级计算机,那么能你破译多少128位的AES密钥呢?
目前(截止到本书撰写的时间)世界上最快的超级计算机是中国的“天河-2号”,它能够每秒进行大约34千万亿次(34×1015次浮点运算)。我们假设其能够一次运算产生一个密钥,再一次运算来验证这个密钥(这个假设是荒谬且保守的),我们每秒能够测试验证惊人的17×1015个密钥。但是128位密钥具有3.4×1038个不同的密钥,意味着用超级计算机整整破解一年后,也只是仅仅探索了密钥空间的百分之1.6×10–13。即便让这超级计算机运行1000年,我们也仅仅是搜寻了密钥空间的百分之0.0000000000016(而且耗费了巨量的电力资源)。
我们简化一下这个问题,暴力破解128位AES密钥的可能性已经如此微小,以至于可以认为是0了。我们可以在这里很专业地说,将128位密钥提升到256位是将破解的可能性从超级无穷小变成2128倍的超级无穷小。

任意的现代编程语言都支持基本的数据操作,但是一些如Python、R等脚本语言似乎在数据分析中比Java、C等编译语言更加常用。即便如此,编程语言其实是无关紧要的,最终的分析结果(以及一个愉快的分析师)比选一门“最好”的语言更重要,能花费最少的精力来完成分析工作就是最好的语言。我们清理、转换数据格式使用的语言一般在Python(pandas)以及R语言之间来回选择(或者有些怀旧的人会选取Perl语言),然后再用R语言或者Python来做数据分析、可视化的工作。学习一些Web相关的语言,如HTML、CSS以及JavaScript有助于创建基于Web的交互式可视化,正如我们将在第11章看到的,但是在数据准备和分析的过程中通常不涉及Web语言。
在本章中有个值得一提的工具:“网关工具”,其介于文本工具和编程之间,也就是电子表格(如微软的Excel或者OpenOffice的Calc)。电子表格可让非程序员做出一些神奇的东西,能快速地得到一些产出结果。尽管电子表格面临一系列的挑战和缺点,但它们也确实具有一些好处。如果处理的数据量不是很大很复杂,以及处理的任务不如“决定世界经济未来走向”重要的话,Excel可能是解决问题的最适合工具。我们强烈推荐选用Excel作为临时的解决方案,其能很好地快速处理一次性任务。但是如果你有一个需要重复分析的任务或者反复使用的模型的话,最好用某种结构化编程语言来处理。
作为一种数据清理工具,使用电子表格初看起来是一个不错的解决办法(尤其是对一些熟悉这方面技能的人来讲),但是电子表格是事件驱动的,意味着它们需要通过点击、打字、拖拽来工作。如果想用来转换一行数据,你就不得不点击表格,选中该行数据,然后再转换数据。这适合一些小的数据集或者快速的任务,但是相信我,你将会(比预期的还频繁)不得不回溯原始数据然后重新清理它。某一天,也许你有一些新的日志文件需要处理,也许你会意识到应该再从原始数据中提取另外的数据关系,也许(累得喘息)你在数据清理过程中发现了一个错误。也许不止一次地,某个点、某个处理细节会导致你重新回溯原始数据,然后重复数据清理以及转换的过程,利用电子表格的话,意味着你需要更多的无数次点击。然而,写一个脚本来运行的话,就可以很轻易、灵活以及一致地执行数据清理过程。

电子表格的限制
在2013年1月16日,摩根大通向股东发表题为《有关摩根大通有限公司 2012 CIO 损失的管理工作报告》(Report of JPMorgan Chase & Co.Management Task Force Regarding 2012 CIO Losses)的报告(在附录B可见完整引用),在报告中,他们调查了在交易中损失的60亿美元。他们对执行故障做了详细审查,并将电子表格作为推波助澜的一个因素。“在审查过程中,额外的操作性问题变得明显。例如,通过一系列的Excel电子表格来操作的模型中,人们必须手动通过粘贴/复制(复制到另外的表格)来操作。”他们发现了一个对电子表格的巨大挑战:在数据计算过程中如何保证数据的一致性和完整性。“我们手动上传的数据缺乏质量控制,以电子表格为基础的数据计算缺乏足够的控制,以及充满了公式、代码频繁变更。”他们接着将电子表格数据模型标记为“错误”以及“难以扩展”。和任何复杂的系统打交道的时候,大量的故障导致数据的灾难,我们很难将电子表格产生的“错误数据”指认为导致损失的主要原因,但是可以肯定的是,其中有它的作用。

在数据准备好进行分析之后,如果会编程的话你就会感到得心应手。很多我们在此提到的编程语言都内置了数据分析的特性。例如,统计学家专门出于数据分析的目的开发了R语言。Python及其扩展包NumPy、SciPy以及pandas,提供了丰富可比较的数据分析环境。但是,仅仅准备和分析数据是不够的,我们还需要表达分析的结果,其中最有效的方法之一就是数据可视化(这个主题占据了本书的好几个章节)。同样,Excel也可以产生一些图表,修改一些Excel的默认设置,就可以得到好的可视化效果。但是在我们看来,复杂的详尽的数据可视化都是通过编程产生,Python和R语言都有一些功能丰富的工具来产生以及探索数据可视化。在很多实例中,你也可以在同一个脚本中结合所有的步骤和函数,可以写一个脚本来抓取原始数据、操作和清理数据、分析数据,然后再对分析结果可视化。

相关文章
|
3月前
|
存储 安全 算法
保护数据安全的重要性:安全加密算法在数据保护中的应用
在数字时代,数据的安全性越来越受到重视。本文将探讨安全加密算法作为一种关键的数据保护手段的重要性和应用。通过分析现有的加密算法和其在数据保护中的角色,我们可以更好地理解如何保护数据免受黑客攻击和隐私泄露。
|
5月前
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
113 0
|
8月前
|
安全 关系型数据库 MySQL
MySQL安全与权限管理:保障数据安全与访问控制
本文深入探讨了MySQL数据库的安全与权限管理,通过详细的代码示例,介绍了用户与权限的概念,权限管理与访问控制的方法,以及数据库安全性策略的制定与实施。MySQL提供了强大的安全性功能,能够帮助管理员保护数据库的数据安全和限制用户的访问权限。了解如何创建用户、授予权限,以及如何制定数据库安全性策略,将使管理员能够有效地管理和保护数据库,降低潜在的安全风险。
362 0
|
9月前
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
840 1
|
11月前
|
存储 数据采集 机器学习/深度学习
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
150 0
|
安全 数据安全/隐私保护
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全自制脑图
96 1
|
安全 数据安全/隐私保护
工控CTF_纵横网络靶场_隐信道数据安全分析
工控CTF_纵横网络靶场_隐信道数据安全分析
工控CTF_纵横网络靶场_隐信道数据安全分析
|
存储 监控 安全
【数据安全】什么是安全飞地(Secure Enclave)?
企业IT的一个主要威胁已经存在于组织内部:内部人员。虽然大多数企业已经采取措施保护系统不受最终用户的影响,但有资格的内部人员可以不受限制地访问更为危险,这不仅限于员工。第三方,包括云提供商的员工,往往是内部违规的罪魁祸首。
|
SQL 分布式计算 运维
数据安全新战场,EasyMR为企业筑起“安全防线”
保障数据安全,成为当前许多企业的重中之重,大数据基础平台EasyMR新增一站式大数据应用安全防控以及数据权限管控能力,实现一键部署安全管控服务,一键开启大数据集群组件的安全认证、用户管理以及权限管控服务,为企业数据安全保驾护航。
130 0
|
人工智能 安全 数据可视化
让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理
安华金和:数据安全治理体系化的数据安全保护
182 0
让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理