《Mahout算法解析与案例实战》一一2.3 测试安装

简介:

本节书摘来自华章计算机《Mahout算法解析与案例实战》一书中的第2章,第2.3节,作者:樊 哲,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 测试安装

首先下载测试数据,在浏览器中输入:http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data.html,下载相应的数据。测试数据是由Dr Robert Alcock在1999年利用程序合成的600个样本的控制图数据,每个样本包括60个属性列,一共可以分为6个类,分别为:正常(C)、循环(B)、上升趋势(E)、下降趋势(A)、向上移位(D)、向下移位(F)。图2-5中显示的是每个类别的10个样本数据图。
image

图2?5 样本数据图
获得上面的测试数据,比如把测试数据下载到/home/mahout/data中,然后使用Hadoop的fs指令把数据上传到HDFS文件系统中,命令如下:
$HADOOP_HOME/bin/hadoop fs –copyFromLocal testdata /home/mahout/data
上传完文件后,可以在HDFS文件系统中进行文件的查看,目录为/user/mahout/testdata,使用Canopy算法进行测试,命令如下:

$HADOOP_HOME/bin/hadoop              ??jar      ???$MAHOUT_HOME/mahout-examples-0.7
-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job

然后在终端就可以看到程序运行信息:程序分别运行了3个Job任务,最后把原始数据分为六类。在HDFS文件系统中的/user/mahout/output文件夹中可以看到输出的文件,但是这些文件都是序列文件,我们使用Mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰地分析输出结果。打开终端,输入命令:

$MAHOUT_HOME/bin/mahout clusterdump –i output/clusters-0-final –p output/clusteredPoints –o /home/mahout/test

参数说明:–i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);–p是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);–o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。clusterdump是有其他参数的,这里只用到这三个就可以了。关于其他参数,直接运行clusterdump(不加任何参数)即可看到参数提示信息。
在本地文件系统中打开文件/home/mahout/test即可看到如下数据文件(部分):

C-0{n=21 c=[29.552, 33.073, 35.876, 36.375, 35.118, 32.761, 29.566, 26.983, 
25.272, 24.967, 25.691, 28.252, 30.994, 33.088, 34.015, 34.349, 32.826, 31.053, 
29.116, 27.975, 27.879, 28.103, 28.775, 30.585, 31.049, 31.652, 31.956, 31.278, 
30.719, 29.901, 29.545, 30.207, 30.672, 31.366, 31.032, 31.567, 30.610, 30.204, 
29.266, 29.753, 29.296, 29.930, 31.207, 31.191, 31.474, 32.154, 31.746, 30.771, 
30.250, 29.807, 29.543, 29.397, 29.838, 30.489, 30.705, 31.503, 31.360, 30.827, 
30.426, 30.399] r=[0.979, 3.352, 5.334, 5.851, 4.868, 3.000, 3.376, 4.812, 5.159,
5.596, 4.940, 4.793, 5.415, 5.014, 5.155, 4.262, 4.891, 5.475, 6.626, 5.691, 
5.240, 4.385, 5.767, 7.035, 6.238, 6.349, 5.587, 6.006, 6.282, 7.483, 6.872, 
6.952, 7.374, 8.077, 8.676, 8.636, 8.697, 9.066, 9.835, 10.148, 10.091, 10.175, 
9.929, 10.241, 9.824, 10.128, 10.595, 9.799, 10.306, 10.036, 10.069, 10.058, 
10.008, 10.335, 10.160, 10.249, 10.222, 10.081, 10.274, 10.145]}
...

查看文件的全部内容,可以看到一共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有的步骤都成功运行即可说明Mahout安装正确。

相关文章
|
25天前
Mybatis+mysql动态分页查询数据案例——测试类HouseDaoMybatisImplTest)
Mybatis+mysql动态分页查询数据案例——测试类HouseDaoMybatisImplTest)
20 1
|
25天前
|
Java 关系型数据库 数据库连接
Mybatis+MySQL动态分页查询数据经典案例(含代码以及测试)
Mybatis+MySQL动态分页查询数据经典案例(含代码以及测试)
24 1
|
2月前
|
Java 测试技术 Maven
JAVA单元测试概念与实战
单元测试是软件开发中的一个测试方法,用于验证软件代码中最小的、独立的单元是否按照预期工作。在Java中,这通常指的是单个的方法或者一个类的个别功能。单元测试的目的是隔离代码的每个部分,并确保各个部分是正确的。
51 4
|
26天前
|
传感器 算法 计算机视觉
基于肤色模型和中值滤波的手部检测算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容是关于一个基于肤色模型和中值滤波的手部检测算法的描述,包括算法的运行效果图和所使用的软件版本(matlab2022a, vivado2019.2)。算法分为肤色分割和中值滤波两步,其中肤色模型在YCbCr色彩空间定义,中值滤波用于去除噪声。提供了一段核心程序代码,用于处理图像数据并在FPGA上实现。最终,检测结果输出到"hand.txt"文件。
|
3月前
|
C++
jrtplib开源库系列之一:jrtplib介绍、安装和测试(window 10环境介绍)
关于jrtplib库网上已经有很多介绍,而且目前jrtplib作者已经停止更新(Apr 18, 2020),最新版本为v3.11.2。本系列内容也以该版本进行介绍。 相信你已经对RTP/RTCP协议有一定的了解,并想更深入的了解RTP协议的具体实现,jrtplib就是使用使用C++实现的RTP/RTCP协议。具体标准为RFC3550,如果想仔细阅读原文,但是对英文又有点吃力,可以参考我的博客RTP/RTCP中英文对照,在博客的后面有百度链接,是对RFC3550的中文翻译,可能很多地方不太准确,有些内容是自己添加进去的,希望不会影响你的阅读。
34 0
|
24天前
|
编译器 Linux C语言
【CMake install目录解析】CMake 深度解析:实现精准、高效的项目构建与安装
【CMake install目录解析】CMake 深度解析:实现精准、高效的项目构建与安装
38 0
|
30天前
|
Java 数据库连接 mybatis
mybatis简单案例源码详细【注释全面】——测试层(UserMapperTest.java)
mybatis简单案例源码详细【注释全面】——测试层(UserMapperTest.java)
9 0
|
1月前
|
Kubernetes Linux Docker
深度解析:Kubernetes 1.28.2集群安装过程中的关键步骤
本文旨在为读者提供一份详尽的Kubernetes 1.28.2集群安装指南,帮助您从零开始构建稳定、高效的Kubernetes集群。我们将从环境准备、软件安装、集群初始化到节点添加等各个环节进行逐步讲解,确保您能够顺利完成集群的搭建。
|
1月前
|
消息中间件 Kafka Linux
Kafka【付诸实践 03】Offset Explorer Kafka 的终极 UI 工具安装+简单上手+关键特性测试(一篇学会使用 Offset Explorer)
【2月更文挑战第21天】Kafka【付诸实践 03】Offset Explorer Kafka 的终极 UI 工具安装+简单上手+关键特性测试(一篇学会使用 Offset Explorer)
158 2
|
1月前
|
运维 数据库
Powershell实战:测试网络请求两个命令介绍
【2月更文挑战第11篇】 Test-Connection 命令将 Internet 控制消息协议 (ICMP) 回显请求数据包或 ping 发送给一台或多台远程计算机并返回回显响应回复。 我们可以使用该命令确定是否可通过 IP 网络ping通特定的计算机。

推荐镜像

更多