漏洞预警:Hadoop 未授权访问可导致数据泄露

简介:

近日,国外媒体报道全球Hadoop服务器因配置不安全导致海量数据泄露,涉及使用Hadoop分布式文件系统(HDFS)的近4500台服务器,数据量高达5120 TB (5.12 PB),经分析,这批数据泄露的近4500台HDFS服务器中以美国和中国为主。

事件原因:

  • 互联网上暴露的Hadoop服务器如果没有配置访问认证均可能受影响,攻击者针对HDFS的攻击删除了大多数目录,并会添加一个名为“NODATA 4U_SECUREYOURSHIT”的新目录和“PLEASE_README”的目录,攻击者可能备份业务数据后在服务器上删除这部分数据,然后直接发送勒索邮件并索要勒索赎金。

风险等级:高危

漏洞原因:

  • 该问题产生是由于管理员在配置失误所致,由于直接在云上开放了Hadoop机器HDFS的50070web端口及部分默认服务端口,黑客可以通过命令行操作多个目录下的数据,如进行删除操作,安全风险高。

检测方式:

修复措施:

强烈建议您安装完Hadoop集群后,进行安全加固:

  • 建议按照安全最小化原则,禁止公网对这部分端口访问,如果因业务需要必须对外开放,请使用ECS提供的安全组策略指定访问源IP访问端口业务,如无必要,关闭Hadoop Web管理页面;
  • 开启服务级别身份验证,如Kerberos认证;
  • 部署Knox、Nginx之类的反向代理系统,防止未经授权用户访问;
  • 使用交换机或防火墙策略配置访问控制策略(ACL),将Hadoop默认开放的多个端口对公网全部禁止或限制可信任的IP地址才能访问包括50070以及WebUI等相关端口。

参考资料:

网上找了一篇加固文档,供参考,Hadoop加固文档:https://help.aliyun.com/knowledge_detail/50128.html

文章转载自 开源中国社区[https://www.oschina.net]

相关文章
|
分布式计算 资源调度 安全
Hadoop Yarn RPC未授权访问漏洞
Hadoop Yarn RPC未授权访问漏洞
1541 0
Hadoop Yarn RPC未授权访问漏洞
|
分布式计算 安全 Hadoop
你的数据安全么?Hadoop再曝安全漏洞| 黑客利用Hadoop Yarn资源管理系统未授权访问漏洞进行攻击
4月30日,阿里云发现,俄罗斯黑客利用Hadoop Yarn资源管理系统REST API未授权访问漏洞进行攻击。 Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的 MapReduce 算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。
7464 0
|
分布式计算 资源调度 安全
首发预警 | 黑客利用Hadoop Yarn资源管理系统未授权访问漏洞进行攻击
4月30日,阿里云发现,俄罗斯黑客利用Hadoop Yarn资源管理系统REST API未授权访问漏洞进行攻击。 Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的 MapReduce 算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。
3674 0
|
分布式计算 安全 大数据
Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深
本文讲的是Hadoop服务器配置不当致使全球5120TB数据泄露,中国和美国受伤最深,直到去年,网络犯罪分子还只是针对具有支付赎金能力的个人或企业组织的计算机进行勒索攻击,但是现在,一切都悄然发生了变化,他们开始针对全球未受保护的在线数据库和服务器进行勒索攻击并索要赎金。
1636 0
|
分布式计算 安全 大数据
还在用Hadoop么?Hadoop服务器造成5PB数据泄露,中国、美国受波及最大!
根据John Matherly的说法,不适当地配置HDFS服务器——主要是Hadoop安装——将会泄露超过5PB的信息。John Matherly是用于发现互联网设备的搜索引擎Shodan的创始人。 这位专家说,他发现了4487个HDFS服务器实例,这些服务器可通过公共IP地址获得,而且不需要身份验证。
4216 0
|
12天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
35 2
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

热门文章

最新文章

相关实验场景

更多