显性特征的基本处理方法

简介:

关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每周都会做。我们从菜市场买的菜,不经过处理是不能下锅的,因为需要清洗、摘取烂的叶子、切段等操作后才可以下锅。如果把机器学习整个流程比做炒一盘青菜的话,今天要介绍这些方式就有点像菜的前期处理过程。那我们就分类别介绍下,对于一份数据,需要针对特征做哪些处理。

 

1.数据清洗

主要包括两方面,一方面是填充缺失值,因为在机器学习算法的计算过程中会对数据进行各种运算符的计算,需要把一些空值填充,通常会被填充为0或者是对应特征列的均值。第二方面是乱码问题,如果是文本数据,经常会出现编码问题,需要把数据的类型全部处理好,最好是double型的。

 

2.去量纲

因为数据的量纲会影响到某些算法的计算,比如有两个字段数据分别是一个人吃饭用了多少秒、吃了多少斤饭,那一个是时间数据,另一个是重量数据,算法是无法感知这些量纲的影响的,所以需要一些数学手段规避。去量纲常用的方法是归一化和标准化。

 

标准化就是每个特征值减去均值再除以方差,表现的是数据的一个分布情况。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

归一化是把数据的分布强制性的限制到01之间,使得向量单位化。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

个人认为标准化对于刻画数据的特征效果更好。

 

3.数据平滑

大家可能平时会接触到一些分布极不均匀的数据,比如一个数据区间是[0,256],但是百分之九十以上的数据分布在[0,10][200,256]这两个区间中。对于这样的数据可以通过取对数的方式来处理,让数据的分布更加平滑。或者干脆数据分桶,取一个中间阈值128,小于128的标记为0,大于128的标记为1

 

4.数据去噪

很多时候数据因为采集方式可能出现各别事故,比如有的数据是靠调查问卷采集上来的,但是就有一个人不认真写,瞎写,造成了噪声数据。这种跟事实偏差极大的数据,可以通过正态分布的原理去除,因为可以设想数据的分布大部分是比较平均的,符合正态分布,那与均值偏差极大的部分就很有可能是噪声,需要去除。

 

5.降维

降维的方式很多啦,如果要讲的话需要非常大的篇幅,之前在写书的时候已经写了一遍了~有点懒,在这里简单提下。其实除了PCALDA这两种降维方式以外,逻辑回归中的正则L1也可以理解为一种降维处理。


转自:https://mp.weixin.qq.com/s?__biz=MzA4MDI0NDQyOQ==&mid=2447500068&idx=1&sn=8b555450ef18f943a708c290cbb9eceb&chksm=8bb27886bcc5f1907be3a5a4f083e143d96a0bc20ffbf02a86c99520b22ef0c27907f9835842&mpshare=1&scene=23&srcid=0206Uayr6EAXH36JzWDdp4dY#rd

目录
相关文章
|
24天前
|
机器学习/深度学习 数据采集 算法
大模型开发:什么是时间序列预测,以及如何处理此类数据?
时间序列预测分析历史数据以预测未来,涉及数据收集、预处理、模型选择(如ARIMA或DeepAR)、模型训练、评估及未来值预测。处理时序数据需注意时间依赖性,预处理和模型选择对准确性影响大。
25 3
|
1月前
|
机器学习/深度学习 SQL 算法
如何在因果推断中更好地利用数据?
本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
|
8月前
|
编解码 算法 数据可视化
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
|
9月前
|
人工智能 自然语言处理 Python
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
|
11月前
|
机器学习/深度学习 算法
在对数据进行预处理时,怎样处理类别型特征?
在对数据进行预处理时,怎样处理类别型特征?
|
11月前
|
数据可视化 数据处理
数据偏度介绍和处理方法
偏度(skewness)是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部(tail)在平均值的哪一侧更重或更长。偏度可以帮助我们了解数据的偏斜性质,即数据相对于平均值的分布情况。
20784 1
|
11月前
|
资源调度 算法 关系型数据库
概率图推断之变量消除算法
事实证明,推理是一项颇具挑战的任务。对于很多我们感兴趣的概率,要准确回答这些问题都是NP难题。至关重要的是,推理是否容易处理取决于描述概率的图的结构。尽管有些问题很难解决,我们仍然可以通过近似推理方法获得有用的答案。
176 0
概率图推断之变量消除算法
|
11月前
|
缓存 算法 Python
概率图推断之信念传播
变量消除算法有个致命的缺陷:每次查询都要要从头开始重新启动算法。这样会非常浪费资源,并且在计算上很麻烦。 这个问题也很容易避免。通过在第一次运行变量消除算法后缓存这些因子,我们可以轻松地计算新的边缘概率查询,基本上不需要额外的成本。 实现上面的功能有2中算法:信念传播(BP)和全联结树算法,本文先介绍信念传播算法。
126 0
概率图推断之信念传播
|
12月前
|
测试技术
参数与非参数检验:理解差异并正确使用
数据科学是一个快速发展的领域,它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验,它有助于确定从样本中获得的结果是否可以推广到总体。
184 0
|
机器学习/深度学习 存储 自然语言处理
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型