《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.1 领域专业知识

简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2.1 领域专业知识

一个数据科学家需要领域专业知识的事实应当是不言而喻的,也似乎是显而易见的,但只有在考虑更高的目标时,进行数据分析才有意义。你关于信息安全的经验将引导分析方向,提供数据的来龙去脉,并帮助将含义应用于结果。换言之,领域专业知识将有益于开始、中间和所有数据分析工作的终点。
为什么专业知识不应该成为拦路虎
我们很可能在这里白费口舌。如果你正在读这本书,那很可能你拥有领域专业知识并看到了信息安全领域中使用数据驱动方法的价值。因此,与其花精力讨论的数据分析领域的专业知识的优势,不如介绍一些你可能会遇到的专家(或持怀疑态度的领导)对数据分析工作的反对意见。
人比模型更聪明。有一些人认为,人总是会胜过算法(或统计数据,或模型),并且还有一些事实可以证明。比如教一个机器去抓住飞球是非常具有挑战性的。就像Kahneman和Klein在2009年的论文《Conditions for Intuitive Expertise: a Failure to Disagree》中指出,但是,决定何时人们的表现将优于算法在很大程度上依赖于任务的环境。如果环境是复杂的,并且反馈是延迟或不明确的,算法一般会胜过人类的判断。所以,问题就变成了,信息系统的安全性有多复杂,以及反馈有多清晰?当你更改或添加安全控制时,你收到多少关于它实际保护信息资产情况的回报?
结果是信息安全发生在一个非常复杂的环境下,但是,这并不意味着你把所有的鸡蛋都放在算法篮子里。意思是,你应该对任何纯粹靠人为判断的方法持怀疑态度,你应该设法加强和支持专家的意见。这不是将算法与人为判断进行比较,设立一个非此即彼的选择是不明智的,应比较纯粹的人为判断与结合了算法及数据分析的人为判断。你不想删除人的因素,但你应该对未经数据证实的观点持怀疑意见。在一个复杂的环境中,人的直觉和数据分析相结合,将产生最佳效果,并创造学习和稳固基础设施的最佳机会。
它仅仅是数据造假。这显示了对数据统计以及数据分析的普遍不信任环境,因为数据统计分析经常出于一些见不得人的动机被滥用以及误用(在某些情况下数据完全是捏造的)。在某种程度上,这种不信任是基于社会工程师极易获取的集体常识。即便如此,由于我们的目的是从数据中学习,我们就处于不一样的出发点。我们坐在一堆堆隐含很多信息和特征的数据面前,我们要去发现这些信息和特征。如果因为数据统计曾经被滥用我们就不使用数据分析,就如同因为汽车偶尔被用于接送服务而不再开车一样可笑。我们要习惯于将数据统计加入到我们的信息安全工具箱内。
并不是说数据分析是万无一失的,即便有时候数据分析产生了错误的结果,也许是因为错误的数据收集,或由欠专业的分析师操作,或源于处理过程中的错误,或仅仅是因为使用Excel(这种情况确也无法避免)。但是,将专业知识和具体数据相结合,就能够有效减少错误的发生。再次强调一下,减少错误的关键在于将数据分析和专业知识进行结合。
数据分析不是制造火箭的科学,这个说法有两个含义。第一个含义是,不管我们尝试解决什么问题,我们都可以用常识去解决它。这个观点可以追溯到我们在上文提出的“人比模型更聪明”,并且会议桌上的一群人不依赖数据分析就解决一个复杂的问题。但正如我们讨论到的,却也有必要在会议上为数据分析提供一席之地,因为有数据分析总比没有好。
上边这个说法的第二个含义就是,数据分析过于复杂且花费巨大(时间、金钱、资源)。这样的观点是完全错误的,这可能更担心在实际操作中会带来令人不爽的改变,而不是真正担心数据分析所花费的时间。数据分析的很多工具都是开源的(如果某些组织不愿意开源,那也会有大量的商业解决方案可以选择),而唯一需要付出的仅仅是花时间学习本书提到的一些数据分析的基本技术和方法。实际上,如果能够正确地将工具和经验进行结合的话,数据分析可以进行得非常迅速,甚至可以实时完成。
我们没有数据。另一种形式的反对意见提出,我们没有精确数据(这在风险分析中更为普遍)。反对数据的人认为“非完美数据即是毫无价值的”,并阻挠开展设计良好的实验。这个观点是虚假且害人的,如果我们只是等待着完美的数据,那么我们将会永远只是等待,并且漏掉了很多从数据中学习的机会。驳斥这个反对意见最重要的核心论点是,我们并不需要完美数据。我们仅仅需要可以从已有的混杂数据中学习的方法。正如Douglas Hubbard于2010年在其著作《How to Measure Anything》中提到的,“事实上,相比于预期,我们经常具有更多的数据,我们只需要更少的数据,并且可以更容易地通过观察从数据中获得更多的数据”。所以,一般来说,用于安全分析的数据是绝对存在的,通常情况是,它们正等着被收集起来呢。我们能对粗略的数据加适当的改动、收集,然后准确地分析数据。现代的数据分析方法已经解决了如何处理具有噪声的、不完备数据的问题。
我们会坠入黑暗。这是我们考虑的最后一个观点了。这个观点并不是那么强烈地反对数据分析,仅仅算一个障碍而已。当你在会议上被视为某个领域的专家时,大家就希望你能给出问题的解答,而当会议的问题不清晰、不确定的时候,就会产生冲突。数据分析恰恰要求适当的自我认知和人性,以便为自以为是的疑虑留有余地。即便你自信地宣称密码是满足一定复杂度若干位字符,但你永远不知道可用性和安全性之间的平衡点。人的信心是需要用人性平衡的,可以根据新的证据知识来更新一个人的观念。数据分析中的这个障碍并不主要局限于分析师,其他涉及分析的领域专家也同样面临自身的人性问题。毕竟并不是每个人都愿意听到“他的世界不是平的”。

相关文章
|
3月前
|
存储 安全 算法
保护数据安全的重要性:安全加密算法在数据保护中的应用
在数字时代,数据的安全性越来越受到重视。本文将探讨安全加密算法作为一种关键的数据保护手段的重要性和应用。通过分析现有的加密算法和其在数据保护中的角色,我们可以更好地理解如何保护数据免受黑客攻击和隐私泄露。
|
5月前
|
SQL 数据可视化 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——7. 自助分析:灵活分析,快速释放数据价值
114 0
|
8月前
|
安全 关系型数据库 MySQL
MySQL安全与权限管理:保障数据安全与访问控制
本文深入探讨了MySQL数据库的安全与权限管理,通过详细的代码示例,介绍了用户与权限的概念,权限管理与访问控制的方法,以及数据库安全性策略的制定与实施。MySQL提供了强大的安全性功能,能够帮助管理员保护数据库的数据安全和限制用户的访问权限。了解如何创建用户、授予权限,以及如何制定数据库安全性策略,将使管理员能够有效地管理和保护数据库,降低潜在的安全风险。
375 0
|
9月前
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
841 1
|
11月前
|
存储 数据采集 机器学习/深度学习
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
《阿里云云通信短信服务安全白皮书》——安全架构——四、 数据安全
155 0
|
安全 数据安全/隐私保护
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全
阿里云产品体系分为6大分类——安全——安全的6种模块——数据安全自制脑图
98 1
|
安全 数据安全/隐私保护
工控CTF_纵横网络靶场_隐信道数据安全分析
工控CTF_纵横网络靶场_隐信道数据安全分析
工控CTF_纵横网络靶场_隐信道数据安全分析
|
存储 监控 安全
【数据安全】什么是安全飞地(Secure Enclave)?
企业IT的一个主要威胁已经存在于组织内部:内部人员。虽然大多数企业已经采取措施保护系统不受最终用户的影响,但有资格的内部人员可以不受限制地访问更为危险,这不仅限于员工。第三方,包括云提供商的员工,往往是内部违规的罪魁祸首。
|
SQL 分布式计算 运维
数据安全新战场,EasyMR为企业筑起“安全防线”
保障数据安全,成为当前许多企业的重中之重,大数据基础平台EasyMR新增一站式大数据应用安全防控以及数据权限管控能力,实现一键部署安全管控服务,一键开启大数据集群组件的安全认证、用户管理以及权限管控服务,为企业数据安全保驾护航。
130 0
|
人工智能 安全 数据可视化
让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理
安华金和:数据安全治理体系化的数据安全保护
183 0
让数据使用自由而安全,安华金和“三驾马车”驱动数据安全治理