备案控制台

开发者社区

开发者社区人工智能文章正文

Splunk Machine Learning Toolkit在分类问题上的应用（一）

2017-12-28 1920

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Splunk MLTK提供了创建告警接口，可以快速创建一个告警。对于机器学习的算法和workflow，Splunk MLTK已经帮你实现，你甚至不需要知道这些算法的原理，只需要根据Splunk MLTK提供的workflow，就可以训练出自己的模型，它是真正把机器学习算法应用到真实数据的工具。

如果预测值是离散的，比如“好”“坏”，这类问题称为分类；对只涉及两个类别的二分类问题，通常称一个类为正类，另一个类为负类。我们看一下有关算法和概念。

真实类别和预测类别的关系

在二分类问题中，真实类别和预测类别有四种关系，真正类(true positive, tp)、假正类(false positive, fp)、真负类(false negative, fn)、假负类(true negative, tn)，很明显，样本总数=tp+fp+fn+tn。

真实类别	预测类别
真实类别	正类	负类
正类	tp	fn
负类	fp	tn

tp：true positive，被预测为正类，事实上也是正类，可以称为真的正确率；

fn：false negative，被预测为负类，事实上是正类，可以称为假的正确率；

fp：false positive，被预测为正类，事实上是负类，可以称为误报率；

tn：false negative，被预测为负类，事实上也是负类，可以称为漏报率；

评价模型的准确性

准确率(accuracy)，表示正确分类的样本数与总样本数之比。

查准率(precision)，表示真正类个数与预测为正类的总数之比。

查全率(recall)，表示真正类个数与实际为正类的总数之比。

F1度量(F1-Measure)，表示查全率和查准率的调和均值。

一般情况：

其中当β>0时度量了查全率和查准率的相对重要性。β=1为F1形式，β>1时查全率有更大影响，β<1时查准率有更大影响。

LogisticRegression分类算法

在线性回归中，我们使用线性函数来预测y(i)，显然它不能很好预测分类问题，比如输出标记y(i)∈{0,1}。我们引入logistic函数来处理二分类问题：

函数称为logistic或者sigmoid函数，函数是S型曲线：

σ(z)∈ [0,1]，它能处理二分类问题，比如有“1”“0”两类，当x属于 “1” 类时，调整参数θ使P(y=1|x)=hθ(x)尽可能大；相反使P(y=0|x)尽可能大。

成本函数(cost function)是评价模型拟合训练集好坏的方法。在二分类中，对于x(i)的预测值y(i),i=1,...,m，我们有成本函数：

J(θ)值越小，代表拟合的越好。

为了找到拟合最好的模型，我们把问题转化为求最小的J(θ)。参数不同导致函数hθ(x)有很多，哪个函数才能使J(θ)最小？梯度下降(Gradient Descent)可以找到函数J(θ)的最小值。

梯度下降是一种优化算法，它是在目标函数的超平面上，沿着斜率下降的方向前进，直到遇到了超平面构成的“谷底”，这个谷底就是极小值点，同时也是局部最优点。对于J(θ)的梯度∇θJ(θ)为：

LogisticRegression算法先介绍到这里，如果你还没明白它的原理，也没关系，我们看一下它在Splunk MLTK中，怎样利用防火墙流量日志判定用户恶意行为。

首先，firewall_traffic.csv是一份带有标签(特征)的防火墙流量日志，used_by_malware字段标记了日志是否有恶意行为。我们的目标是通过学习这些日志，判断新来流量是否有恶意行为。

很明显，这是二分类问题，我们可以使用LogisticRegression算法来拟合我们的模型。

对于这个界面相信大家都不陌生，首先我们搜索我们的数据，再选择LogisticRegression算法，选定预测字段(used_by_malware)，选择特征字段等，最后拟合模型。

同时，如果你不太熟悉Splunk ML-SPL的话，可以点击“Show SPL”按钮查来看。

拟合后，我们在表格中看到模型准确性指标。

Splunk MLTK提供了创建告警接口，可以快速创建一个告警。

对于机器学习的算法和workflow，Splunk MLTK已经帮你实现，你甚至不需要知道这些算法的原理，只需要根据Splunk MLTK提供的workflow，就可以训练出自己的模型，它是真正把机器学习算法应用到真实数据的工具。

如果你想了解更多有关机器学习的信息，或者在使用Splunk MLTK中有任何疑问，都可以到论坛(http://ask.10data.com)进行留言和讨论。

文章标签：

日志服务

算法

机器学习/深度学习

Python

网络安全

相关实践学习

日志服务之使用Nginx模式采集日志

本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。

10data

目录

相关文章

TechLead

|

3月前

|

数据可视化测试技术 API

Azure Machine Learning - Azure可视化图像分类操作实战

Azure Machine Learning - Azure可视化图像分类操作实战

TechLead

39 1 1

TechLead

|

3月前

|

人工智能 JSON 文字识别

Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision

Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision

TechLead

71 0 0

TechLead

|

4月前

|

存储人工智能搜索推荐

Azure Machine Learning - 什么是 Azure AI 搜索？

Azure Machine Learning - 什么是 Azure AI 搜索？

TechLead

51 0 0

w风雨无阻w

|

6月前

|

搜索推荐 Android开发 iOS开发

AppsFlyer 研究（四）OneLink Deep Linking Guide

AppsFlyer 研究（四）OneLink Deep Linking Guide

w风雨无阻w

238 0 0

TechLead

|

3月前

|

存储人工智能机器人

Azure Machine Learning - 聊天机器人构建

Azure Machine Learning - 聊天机器人构建

TechLead

26 0 0

机器学习Zero

|

机器学习/深度学习人工智能自然语言处理

Machine Learning-L0-机器学习简介

Machine Learning-L0-机器学习简介

机器学习Zero

93 0 0

Machine Learning-L0-机器学习简介

机器学习Zero

|

机器学习/深度学习数据采集算法

Machine Learning-L1-机器学习pipeline

Machine Learning-L1-机器学习pipeline

机器学习Zero

91 0 0

Machine Learning-L1-机器学习pipeline

壹佰、

|

机器学习/深度学习负载均衡搜索推荐

【推荐系统论文精读系列】(十六)--Locally Connected Deep Learning Framework for Industrial-scale Recommender Systems

在这项工作中，我们提出了一个局部连接的深度学习框架推荐系统，该框架将DNN的模型复杂性降低了几个数量级。我们利用Wide& Deep模型的思想进一步扩展了框架。实验表明，该方法能在较短的运行时间内取得较好的效果。

壹佰、

106 0 0

【推荐系统论文精读系列】(十六)--Locally Connected Deep Learning Framework for Industrial-scale Recommender Systems

一个处女座的程序猿

|

机器学习/深度学习算法搜索推荐

Paper：《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读

Paper：《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读

一个处女座的程序猿

198 0 0

DrugAI

|

机器学习/深度学习数据采集人工智能

Machine Learning | 机器学习简介

Machine Learning | 机器学习简介

DrugAI

112 0 0

Machine Learning | 机器学习简介

热门文章

最新文章

Mac安装并使用telnet命令操作

OSS回源的几种方式和应用场景

[剑指offer] 孩子们的游戏(圆圈中最后剩下的数)

网络安全系列之二十二 Windows用户账号加固

我理解的一个程序员如何学习前端开发

《社交网站界面设计（原书第2版）》——1.9　为设备之间的空间进行设计

《Microduino实战》——1.2　为什么要开源

.Net函数Math.Round你会用吗？

麻省理工大学新发明：暗黑WiFi透视技术

2014秋C++第19周补充代码哈希法的存储与查找

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现-4

Sentieon | 每周文献-Multi-omics-第四十一期

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1

基于RT-Thread摄像头车牌图像采集系统

R语言极值理论：希尔HILL统计量尾部指数参数估计可视化

【视频】R语言中的分布滞后非线性模型（DLNM）与发病率，死亡率和空气污染示例

sql语句创建数据库

相关课程

更多

机器学习小抄 | Machine Learning Cheat Sheets

相关电子书

更多

BigDL: a Distributed Deep Learning Library on Spark

Building Deep Learning Powered Big Data Analytics using BigDL

Deep Learning vs.Machine Learn

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）