Hadoop简单入门视频总结

简介: hadoop简单介绍和简单实践视频教程 慕课网: https://www.imooc.com/video/7642预备知识:liunx基本操作java开发基础知识google的大数据技术:MapReduce,BigTables,GFS革命性变化:成本降低,能用pc机就不用大型机和高端存储。

hadoop简单介绍和简单实践视频教程 慕课网: https://www.imooc.com/video/7642

预备知识:

liunx基本操作
java开发基础知识

google的大数据技术:MapReduce,BigTables,GFS

革命性变化:

  1. 成本降低,能用pc机就不用大型机和高端存储。
  2. 软件容错,硬件故障视为常态,通过软件保证可靠性。
  3. 简化并行分布式计算,无需控制节点同步和数据交换。

google分布式计算的开源实现 Hadoop ,由apache开发。
解决两个问题,分布式存储和分布式数据处理。
对应HDFS(分布式文件系统)和MapReduce(映射规约)


img_48f5b8d11be7602455ae108741b1e08b.png

Hdoop优势:

  1. 高扩展
  2. 低成本
  3. 成熟的生态圈


    img_02cdfcf6fc8deea2b9ae2e27bf6c2c93.png

    img_da8a8bb9c2e4d1ef1ffb9f2962c40cf1.png

Hadoop 生态系统

Hive 小蜜蜂,牵引

img_ba4fa75374492bdc8fd8845ec1aef404.png

Hbase

img_5c6f9722e926ae6da1f8e7ae1a9619da.png

img_8bab5d0476d475af8c28f1f34099c15f.png

zookeeper

img_7fd88dbe69488f7e7789ad6a8f9cbbf1.png

Hadoop安装

  1. 准备linux
    租用云主机,比如阿里云。
  2. jdk环境
centos下有所不同
1、下载  : yum install java-1.7.0-openjdk
2、配置环境变量 vim /etc/profile
export JAVA_HOME=/jdk路径
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH
3、让配置生效source /etc/profile
4、输入  java -version 进行测试

vim /etc/profile

配置环境变量

export JAVA_HOME=/jdk路径

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH

让配置生效

source /etc/profile
  1. 配置Hadoop
wegt http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
img_e317f3cdae2550ab757fc8ded9ce4156.png

修改四个配置文件


img_940793c2b0bba6aa157b243ea1f5c7c0.png
<!-- core-site.xml -->

  <property>

    <name>hadoop.tmp.dir</name>

    <value>/hadoop</value>

  </property>

  <property>

    <name>dfs.name.dir</name>

    <value>/hadoop/name</value>

  </property>

  <property>

    <name>fs.default.name</name>

    <value>hdfs://localhost:9000</value>

  </property>


<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

hdfs-site.xml



<property>

<name>dfs.data.dir</name>

<value>/hadoop/data</value>



</property>


HDFS

img_7e0a7c3331befcf1e884e5d4274e78b4.png

img_0924a7943320c35a16846addf1d2b9c3.png
img_5b1bdb1994b4c0e804834a689070bd3f.png
namenode

img_efdbdd4104503a98852ffd2677714e2d.png
datenode

文件读取流程:
客户端发送请求给NameNode,NameNode告诉客户端数据在哪些DataNode,然后客户端找DataNode读取数据。


img_5fdb507be9d94a720b795d64f9965149.png

文件写入流程:
客户端先分拆分成块64M大小,然后客户端通知NameNode存储,NameNode找几个空闲的DataNode返回客户端,客户端写数据个某个DataNode,然后DataNode进行复制,复制完毕更新NameNode记录。


img_572d130dd865a3de6961860112b46dde.png

HDFS 特点

  1. 数据冗余,硬件容错
  2. 流式的数据访问(一次写入,多次读取,顺序写入)
  3. 适合存储大文件

HDFS使用

shell命令操作

MapReduce 原理

分而治之思想
map 影视
reduce 归约


img_e1dfdbb758bc0a73541c89c36e7c3eda.png

Job&Task
JobTracker
TaskTracker


img_2378d82dccea9ea6535034f054ead9c6.png
image.png
img_59245caf95d0daef877f6f5c165646b8.png

img_c6a66587d6d51bcf4fe9e8cb85675957.png

img_792715da7b97b6652c63700070d17858.png

img_87f24963fa50d1b1b4b3f3f985dbfa2b.png

MapReduce容错机制:

  1. 重复执行
  2. 推测执行

helloword 入门 单词计数程序

img_6c395952da754460b6180c174257ff96.png

img_e4b759b7aabf33e0b3bafe075369aa55.png
img_0c0ca97c5775d2b994b2ab23b0606117.png
img_a39158936222439da80af9e23a1dc174.png
img_143bab56961deec51a12ad6bac137452.png
img_843869135146c1b1528af43c8be3c53a.png

img_e49e22b83ccab1277b8dbb61b94cdc16.png

img_855c250d4351610f7556b2b6d0b75636.png
相关文章
|
存储 SQL 缓存
Hadoop入门(一篇就够了)
Hadoop入门(一篇就够了)
2468 0
Hadoop入门(一篇就够了)
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
5月前
|
存储 分布式计算 资源调度
Hadoop入门(一篇就够了)(上)
Hadoop入门(一篇就够了)(上)
85 0
|
5月前
|
缓存 分布式计算 安全
Hadoop入门(一篇就够了)(下)
Hadoop入门(一篇就够了)(下)
35 0
|
9月前
|
存储 分布式计算 资源调度
Hadoop全分布式部署 - CentOS(结尾附视频)
Hadoop全分布式部署 - CentOS(结尾附视频)
132 0
|
9月前
|
存储 SQL 分布式计算
Hadoop伪分布式部署 - CentOS(结尾附视频)
Hadoop伪分布式部署 - CentOS(结尾附视频)
71 0
|
9月前
|
存储 SQL 分布式计算
Hadoop单机模式部署 - CentOS(结尾附视频)
Hadoop单机模式部署 - CentOS(结尾附视频)
177 0
|
分布式计算 安全 Hadoop
hadoop 入门 java.net.ConnectException: Connection refused
hadoop 入门 java.net.ConnectException: Connection refused
188 0
hadoop3自学入门笔记(3)-java 操作hdfs
hadoop3自学入门笔记(3)-java 操作hdfs
108 0
|
分布式计算 Hadoop Java
hadoop3自学入门笔记(2)—— HDFS分布式搭建
hadoop3自学入门笔记(2)—— HDFS分布式搭建
126 0
hadoop3自学入门笔记(2)—— HDFS分布式搭建

相关实验场景

更多