Hadoop集群环境下网络架构的设计与优化

简介:

大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验。

大数据Hadoop环境网络特性Hadoop 集群中的各节点通过网络连接起来,而且MapReduce 中的以下过程会在网络中传输数据。

(1)写数据。当向HDFS 写入初始数据或者大块数据时,会发生数据写入过程。写入的数据块需要备份到其他节点,需要在网络中传输这些数据。

(2)作业执行。

① Map 阶段。在算法的Map 阶段,几乎不需要在网络中传输数据。在Map 开始阶段,当HDFS 数据没有本地性(数据块不在本地存储,需要从其他节点拷贝)时,才需在网络中传输数据。

② Shuffle 阶段。这是作业执行中在网络中传输数据的阶段,数据传输的程度依赖于作业。Mapper 阶段的输出内容,会在这个时候传输到Reducer 进行排序。

③ Reduce 阶段。因为Reducer 需要的数据已经从Shuffle 阶段传来,所以此阶段不需要网络传输数据。

④ Output 复制。MapReduce 的输出作为文件存储在HDFS 上。当将输出结果写入HDFS 时,产生的备份会在网络中传输。

(3)读数据。当应用程序如网站、索引或者SQL数据库从HDFS 读取数据时,会发生数据读取的过程。另外,网络对Hadoop 的控制层非常重要,比如HDFS 的信令和运维操作,以及MapReduce 架构都受到网络影响。

五种网络特性

思科公司针对Hadoop 集群环境下的网络环境进行了一个测试,测试结果显示,一个有弹性的网络对Hadoop 集群非常重要;对Hadoop 集群具有重要影响的网络特性,以其影响程度从大到小依次排序为:网络可用性和弹性、Burst 流量突发处理和队列深度、网络过载比、Datanode 网络接入和网络延迟。

(1)网络可用性和弹性。要部署一个高冗余性和可扩展的网络,支持Hadoop 集群的增长。在Datanode之间部署多条链路的技术要比那些有单点失效或两点失效的技术要好。交换机和路由器已经在业界被证明能够为服务器提供网络可用性。

(2)Burst 流量突发处理和队列深度。HDFS 的有些操作和MapReduce Job 会产生突发流量,如向HDFS加载文件或者把结果文件写入HDFS 都需要通过网络。网络如果处理不了突发流量,就会丢弃数据包,所以适当的缓存可以缓解突发流量的影响。确保选择使用缓存和队列的交换机和路由器,来有效处理流量突发。

(3)网络过载比。一个好的网络设计需要考虑到网络中关键节点的拥塞情况。一个ToR 交换机从服务器接收20Gbps 的数据,但是只有2 个1Gbps 的上联口会造成数据包丢失(10:1 的过载比),严重影响集群的性能。过度配置的网络的价格又非常昂贵。一般情况下,服务器接入层可以接受的过载比在4:1 左右,接入层和汇聚层之间,或者核心层的过载比在2:1左右。

(4)Datanode 网络接入。要基于集群工作负荷来推荐带宽配置。一般集群中的节点有1 到2 根1GB 的上联口。是否选择10Gbps 的服务器要权衡价格和性能。

(5)网络延迟。交换机和路由器延迟的变化对集群性能的影响有限。相比网络延迟,应用层延迟对任务的影响比例更大。但是网络的延迟会对应用系统造成潜在的影响,例如造成不必要的应用切换等。


原文发布时间为:2014年04月14日
本文作者:中国大数据
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
人工智能 安全 网络安全
云计算环境下的网络安全策略与实践
【4月更文挑战第30天】本文聚焦于当前快速发展的云计算环境中的网络安全问题。首先,分析了云服务模式对传统网络架构的冲击和安全挑战;然后,探讨了在多租户、资源共享的前提下,如何保障数据隔离、访问控制及传输安全等关键安全要素;进一步地,提出了一系列创新的安全机制,包括基于行为分析的入侵检测系统、加密技术的最新应用,以及利用人工智能进行安全事件预测和管理的策略。最后,结合案例分析,评估了这些策略在现实业务中的有效性,并展望了未来云计算与网络安全融合发展的趋势。
|
10天前
|
安全 网络安全 量子技术
网络安全与信息安全:保护数字世界的锁与钥构建安全防线:云计算环境中的网络安全策略与实践
【4月更文挑战第29天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源的防线。本文深入探讨了网络安全漏洞的成因、加密技术的进展以及提升安全意识的重要性。通过对网络威胁的分析,我们揭示了安全漏洞的本质和它们如何被黑客利用。接着,文章详细解读了现代加密技术,包括对称加密、非对称加密和散列函数,并强调了量子计算对未来加密的潜在影响。最后,通过教育和技术实践的建议,我们强调了培养全民网络安全意识的必要性。 【4月更文挑战第29天】 在数字化转型的浪潮中,云计算作为支撑企业敏捷性与效率的关键基础设施,其安全性受到了前所未有的关注。本文深入探讨了云计算环境下所面临的独特安全挑战,并提出
|
1天前
|
运维 安全 Linux
深入理解Docker自定义网络:构建高效的容器网络环境
深入理解Docker自定义网络:构建高效的容器网络环境
|
2天前
|
云安全 安全 网络安全
构筑安全之云:云计算环境下的网络安全与信息保护
【5月更文挑战第7天】 随着信息技术的飞速发展,云计算已成为支撑现代企业运作的重要基石。然而,伴随其便利性与高效性的,是对网络安全和信息保护的新挑战。本文旨在深入探讨云计算环境中所面临的核心安全威胁,并分析现有及新兴的安全技术如何协同作用以强化数据保护。通过综合评估不同防护策略的优势与局限,文章提出了一个多层次、动态适应的安全框架,以期为构建更为坚固的云上防线提供参考和启示。
|
3天前
|
关系型数据库 MySQL 数据库
MySQL集群 双主架构(配置命令)
MySQL集群 双主架构(配置命令)
|
3天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全策略与实践
【5月更文挑战第6天】 随着企业和个人日益依赖云服务,数据存储、处理和流通的边界变得模糊。这种转变不仅带来了灵活性和成本效益,也引入了新的安全挑战。本文探讨了云计算环境下网络安全的关键问题,包括身份验证、数据加密、访问控制和威胁监测等。通过分析当前云安全的最佳实践和面临的挑战,我们提出了一系列战略性措施以增强云基础设施的安全性,并确保信息资产的保密性、完整性和可用性得到保护。
30 5
|
3天前
|
Kubernetes Cloud Native 持续交付
探索云原生架构的未来:如何优化资源管理和服务部署
【5月更文挑战第6天】 随着云计算的快速发展,云原生技术已成为企业数字化转型的关键驱动力。此篇文章深入探讨了云原生架构的核心组件及其在资源管理和服务部署方面的优化策略。通过分析容器化、微服务及自动化管理的实践案例,本文旨在为读者提供一套系统的方法论,以利用云原生技术实现更高效、灵活且可靠的IT基础设施。
23 2
|
6天前
|
监控 安全 网络安全
云端之盾:构建云计算环境下的网络安全防线
【5月更文挑战第3天】 在数字化转型的浪潮中,云计算作为企业IT架构的核心,提供了弹性、可扩展的资源和服务。然而,随着数据和应用不断向云端迁移,网络安全威胁也随之增加,给企业带来了前所未有的挑战。本文将探讨在云计算环境下,如何通过综合安全策略和先进技术手段来构建坚固的网络安全防线,确保云服务的安全性和数据的机密性、完整性与可用性。
32 5
|
8天前
|
云安全 人工智能 安全
云端守卫:构筑云计算环境下的网络安全防线
【5月更文挑战第1天】 随着企业数字化转型的深入,云计算已成为支撑现代业务架构的关键平台。然而,云服务的广泛应用也带来了前所未有的安全挑战。本文将深入探讨在云计算环境中如何构建一个全面的网络安全防护体系,涵盖从云服务模型到网络安全策略、从风险评估到防御机制的多个维度。通过分析当前云安全领域的最佳实践和创新技术,我们旨在为读者提供一个关于如何在享受云计算便利的同时确保数据与应用安全的实用指南。
|
8天前
|
存储 安全 网络安全
云端防御:构建弹性云计算环境下的网络安全防线
【5月更文挑战第1天】 随着企业纷纷拥抱云计算以提升业务敏捷性和降低成本,云服务的安全威胁也愈发凸显。本文聚焦于如何在动态且复杂的云计算环境中保障数据和应用程序的安全性,探讨了当前主流的云安全策略、挑战及其解决方案。从身份验证到数据加密,再到入侵检测系统,文章深入分析了构建坚固网络防线的关键技术和最佳实践,旨在为读者提供一套全面的云计算安全指南。