大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子

简介: 大数据Hadoop运行环境,依赖于Java JDK,核心的大数据框架基于Java开发的,目前互联网公司、电商、医疗、银行、医院等都有大数据应用,开源Hadoop生态统治了大数据领域,基本没有对手。大数据Hadoop最新版3.2.0实战安装与测试Linux Ubuntu 16.04,并运行文本分析的例子。

大数据Hadoop运行环境,依赖于Java JDK,核心的大数据框架基于Java开发的,目前互联网公司、电商、医疗、银行、医院等都有大数据应用,开源Hadoop生态统治了大数据领域,基本没有对手。企业要做大数据,基本最成熟的开源大数据平台就是Hadoop体系。今天基于Linux Ubuntu 16.04安装最新的Hadoop。大数据Hadoop最新版3.2.0实战安装与测试Linux Ubuntu 16.04,并运行文本分析的例子。

1、安装Java JDK 1.8 环境,确保Hadoop运行。
可以选择安装Oracle JDK或者Open JDK。目前企业开发建议使用Open JDK。
如果是付费用户,愿意安装Oracle JDK也行。

sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java9-installer
sudo apt-get install oracle-java10-installer
sudo apt-get install oracle-java11-installer

但是使用开源版本是最安全的,不会有授权收费问题。

sudo add-apt-repository ppa:webupd8team/java
sudo apt update
sudo apt install oracle-java8-set-default

java --version查看安装设置,成功安装Open JDK8
image

2、下载Hadoop安装包,这里选择清华大学镜像服务器
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
输入命令下载最新的安装包,等待,因为国外服务器下载速度太慢,需要几个小时。
image

3、解压安装包 tar xzf hadoop-3.2.0.tar.gz

image
4、创建Hadoop账号

$ adduser hadoop
$ usermod -aG hadoop hadoop
$ chown hadoop:root -R /usr/local/hadoop
$ chmod g+rwx -R /usr/local/hadoop

5、创建SSH 密钥文件

ssh-keygen -t rsa

image
6、测试SSH登陆 ssh localhost
image
7、格式化namenode。 HDFS命令来格式化Namenode。
hadoop namenode -format
image
8、启动HDFS和Yarn资源管理器
start-dfs.sh和start-yarn.sh,执行命令后,输入JPS查看运行的进城。
image
9、查看Hadoop版本
以上配置完成,可以运行hadoop version命令查看版本信息:
image
10、HDFS版本
image
11、查看Hadoop集群管理页面
Http://localhost:8088
image
12、测试Hadoop,最蛋疼的过程。
使用txt文件作为测试输入数据,执行命令 :

./bin/hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-3.2.0-sources.jar org.apache.hadoop.examples.WordCount input output

大数据分析输出统计文本的结果信息
image
阿里巴巴Java群超过3300人
直播地址:Java技术进阶群
进群方式:钉钉扫码入群
image
阿里巴巴MongoDB群
image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
NoSQL 关系型数据库 MySQL
涉及rocketMQ,jemeter等性能测试服务器的安装记录
涉及rocketMQ,jemeter等性能测试服务器的安装记录
16 1
|
16小时前
|
分布式计算 Hadoop Java
大数据实战平台环境搭建(下)
大数据实战平台环境搭建(下)
6 0
|
1天前
|
Web App开发 测试技术 C++
Playwright安装与Python集成:探索跨浏览器测试的奇妙世界
Playwright是新兴的跨浏览器测试工具,相比Selenium,它支持Chrome、Firefox、WebKit,执行速度快,选择器更稳定。安装Playwright只需一条`pip install playwright`的命令,随后的`playwright install`会自动添加浏览器,无需处理浏览器驱动问题。这一优势免去了Selenium中匹配驱动的烦恼。文章适合寻求高效自动化测试解决方案的开发者。
10 2
|
3天前
|
网络安全 Docker 容器
测试开发环境下centos7.9下安装docker的minio
测试开发环境下centos7.9下安装docker的minio
|
3天前
|
JSON 应用服务中间件 Linux
skywalking内部测试服务器安装记录
skywalking内部测试服务器安装记录
10 0
|
5天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
24 0
|
5天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
10天前
|
资源调度 JavaScript Ubuntu
Yarn介绍及快速安装Debian/Ubuntu Linux
现在,你已经成功安装了Yarn,可以在你的JavaScript项目中使用它来管理依赖。
49 3
|
11天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
12天前
|
Linux 测试技术 数据安全/隐私保护
CentOS安装MeterSphere并实现无公网IP远程访问本地测试平台
CentOS安装MeterSphere并实现无公网IP远程访问本地测试平台