特征工程(三):特征缩放,从词袋到 TF-IDF

简介: 字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。

字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。

其他的像是“magnificently,” “gleamed,” “intimidated,” “tentatively,” 和“reigned,”这些辅助奠定段落基调的词也是很好的选择。它们表示情绪,这对数据科学家来说可能是非常有价值的信息。 所以,理想情况下,我们会倾向突出对有意义单词的表示。

Tf-Idf: 词袋的小转折
Tf-Idf 是词袋的一个小小的转折。它表示词频-逆文档频。tf-idf不是查看每个文档中每个单词的原始计数,而是查看每个单词计数除以出现该单词的文档数量的标准化计数。
image
让我们看一些图片来了解它的具体内容。图4-1展示了一个包含4个句子的简单样例:“it is a puppy,” “it is a cat,” “it is a kitten,” 以及 “that is a dog and this is a pen.” 我们将这些句子绘制在“puppy”,“cat”以及“is”三个词的特征空间上。

image

关于猫和狗的四个句子


现在让我们看看对逆文档频进行对数变换之后,相同四个句子的tf-idf表示。 图4-2显示了相应特征空间中的文档。可以注意到,单词“is”被有效地消除,因为它出现在该数据集中的所有句子中。另外,单词“puppy”和“cat”都只出现在四个句子中的一个句子中,所以现在这两个词计数得比之前更高(log(4)=1.38...>1)。因此tf-idf使罕见词语更加突出,并有效地忽略了常见词汇。它与第3章中基于频率的滤波方法密切相关,但比放置严格截止阈值更具数学优雅性。
image
四个句子的Tf-idf表示
Tf-Idf的含义
Tf-idf使罕见的单词更加突出,并有效地忽略了常见单词。

测试
Tf-idf通过乘以一个常量来转换字数统计特性。因此,它是特征缩放的一个例子,这是第2章介绍的一个概念。特征缩放在实践中效果有多好? 我们来比较简单文本分类任务中缩放和未缩放特征的表现。 coding时间到!

本次实践, 我们依旧采用了Yelp评论数据集。Yelp数据集挑战赛第6轮包含在美国六个城市将近一百六十万商业评论。

使用python加载和清洗Yelp评论数据集
image
建立分类数据集
让我们看看是否可以使用评论来区分餐厅或夜生活场所。为了节省训练时间,仅使用一部分评论。这两个类别之间的评论数目有很大差异。这是所谓的类不平衡数据集。对于构建模型来说,不平衡的数据集存在着一个问题:这个模型会把大部分精力花费在比重更大的类上。由于我们在这两个类别都有大量的数据,解决这个问题的一个比较好方法是将数目较大的类(餐厅)进行下采样,使之与数目较小的类(夜生活)数目大致相同。下面是一个示例工作流程。

随机抽取10%夜生活场所评论以及2.1%的餐厅评论(选取合适的百分比使得每个种类的数目大致一样)

将数据集分成比例为7:3的训练集和测试集。在这个例子里,训练集包括29,264条评论,测试集有12542条。

训练数据包括46,924个不同的单词,这是词袋表示中特征的数量。

创建一个分类数据集
image
用tf-idf转换缩放词袋
这个实验的目标是比较词袋,tf-idf以及L2归一化对于线性分类的作用。注意,做tf-idf接着做L2归一化和单独做L2归一化是一样的。所以我们需要只需要3个特征集合:词袋,tf-idf,以及逐词进行L2归一化后的词袋。

在这个例子中,我们将使用Scikit-learn的CountVectorizer将评论文本转化为词袋。所有的文本特征化方法都依赖于标记器(tokenizer),该标记器能够将文本字符串转换为标记(词)列表。在这个例子中,Scikit-learn的默认标记模式是查找2个或更多字母数字字符的序列。标点符号被视为标记分隔符。

测试集上进行特征缩放
特征缩放的一个细微之处是它需要了解我们在实践中很可能不知道的特征统计,例如均值,方差,文档频率,L2范数等。为了计算tf-idf表示,我们不得不根据训练数据计算逆文档频率,并使用这些统计量来调整训练和测试数据。在Scikit-learn中,将特征变换拟合到训练集上相当于收集相关统计数据。然后可以将拟合过的变换应用于测试数据。

特征变换
image
当我们使用训练统计来衡量测试数据时,结果看起来有点模糊。测试集上的最小-最大比例缩放不再整齐地映射到零和一。L2范数,平均数和方差统计数据都将显得有些偏离。这比缺少数据的问题好一点。例如,测试集可能包含训练数据中不存在的单词,并且对于新的单词没有相应的文档频。通常的解决方案是简单地将测试集中新的单词丢弃。这似乎是不负责任的,但训练集上的模型在任何情况下都不会知道如何处理新词。一种稍微不太好的方法是明确地学习一个“垃圾”单词,并将所有罕见的频率单词映射到它,即使在训练集中也是如此,正如“罕见词汇”中所讨论的那样。

使用逻辑回归进行分类
逻辑回归是一个简单的线性分类器。通过对输入特征的加权组合,输入到一个sigmoid函数。sigmoid函数将任何实数平滑的映射到介于0和1之间。如图4-3绘制sigmoid函数曲线。由于逻辑回归比较简单,因此它通常是最先接触的分类器。

image

sigmoid函数


该函数将输入的实数x转换为一个0到1之间的数。它有一组参数w,表示围绕中点0.5增加的斜率。截距项b表示函数输出穿过中点的输入值。如果sigmoid输出大于0.5,则逻辑分类器将预测为正例,否则为反例。通过改变w和b,可以控制决策的改变,以及决策响应该点周围输入值变化的速度。

使用默认参数训练逻辑回归分类器
image
矛盾的是,结果表明最准确的分类器是使用BOW特征的分类器。出乎意料我们之外。事实证明,造成这种情况的原因是没有很好地“调整”分类器,这是比较分类器时一个常见的错误。

使用正则化调整逻辑回归
逻辑回归有些华而不实。 当特征的数量大于数据点的数量时,找到最佳模型的问题被认为是欠定的。 解决这个问题的一种方法是在训练过程中增加额外的约束条件。 这就是所谓的正则化,技术细节将在下一节讨论。

逻辑回归的大多数实现允许正则化。为了使用这个功能,必须指定一个正则化参数。正则化参数是在模型训练过程中未自动学习的超参数。相反,他们必须手动进行调整,并将其提供给训练算法。这个过程称为超参数调整。(有关如何评估机器学习模型的详细信息,请参阅评估机器学习模型(Evaluating Machine Learning Models)).调整超参数的一种基本方法称为网格搜索:指定一个超参数值网格,并且调谐器以编程方式在网格中搜索最佳超参数设置 格。 找到最佳超参数设置后,使用该设置对整个训练集进行训练,并比较测试集上这些同类最佳模型的性能。

重点:比较模型时调整超参数
比较模型或特征时,调整超参数非常重要。 软件包的默认设置将始终返回一个模型。 但是除非软件在底层进行自动调整,否则很可能会返回一个基于次优超参数设置的次优模型。 分类器性能对超参数设置的敏感性取决于模型和训练数据的分布。 逻辑回归对超参数设置相对稳健(或不敏感)。 即便如此,仍然有必要找到并使用正确的超参数范围。 否则,一个模型相对于另一个模型的优点可能仅仅是由于参数的调整,并不能反映模型或特征的实际表现。

即使是最好的自动调整软件包仍然需要指定搜索的上限和下限,并且找到这些限制可能需要几次手动尝试。

在本例中,我们手动将逻辑正则化参数的搜索网格设置为{1e-5,0.001,0.1,1,10,100}。 上限和下限花费了几次尝试来缩小范围。 表4-1给出了每个特征集合的最优超参数设置。

Table4-1.对夜场和餐厅的Yelp评论进行逻辑回归的最佳参数设置
image
我们也想测试tf-idf和BOW之间的精度差异是否是由于噪声造成的。 为此,我们使用k折交叉验证来模拟具有多个统计独立的数据集。它将数据集分为k个折叠。交叉验证过程通过分割后的数据进行迭代,使用除除去某一折之外的所有内容进行训练,并用那一折验证结果。Scikit-Learn中的GridSearchCV功能通过交叉验证进行网格搜索。 图4-4显示了在每个特征集上训练的模型的精度测量分布箱线图。 盒子中线表示中位精度,盒子本身表示四分之一和四分之三分位之间的区域,而线则延伸到剩余的分布。

通过重采样估计方差
现代统计方法假设底层数据是随机分布的。 数据导出模型的性能测量也受到随机噪声的影响。 在这种情况下,基于相似数据的数据集,不止一次进行测量总是比较好的。 这给了我们一个测量的置信区间。 K折交叉验证就是这样一种策略。 重采样是另一种从相同底层数据集生成多个小样本的技术。 有关重采样的更多详细信息,请参见评估机器学习模型。

使用网格搜索调整逻辑回归超参数
image
image
image
image
L2归一化后的特征结果看起来非常糟糕。 但不要被蒙蔽了 。准确率低是由于正则化参数设置不恰当造成的 - 实际证明次优超参数会得到相当错误的结论。 如果我们使用每个特征集的最佳超参数设置来训练模型,则不同特征集的测试精度非常接近。

最终的训练和测试步骤来比较不同的特征集

image
image
适当的调整提高了所有特征集的准确性,并且所有特征集在正则化后进行逻辑回归得到了相近的准确率。tf-idf模型准确率略高,但这点差异可能没有统计学意义。 这些结果是完全神秘的。 如果特征缩放效果不如vanilla词袋的效果好,那为什么要这么做呢? 如果tf-idf没有做任何事情,为什么总是要这么折腾? 我们将在本章的其余部分中探索答案。

深入:发生了什么?
为了明白结果背后隐含着什么,我们必须考虑模型是如何使用特征的。对于类似逻辑回归这种线性模型来说,是通过所谓的数据矩阵的中间对象来实现的。 数据矩阵包含以固定长度平面向量表示的数据点。 根据词袋向量,数据矩阵也被称为文档词汇矩阵。 图3-1显示了一个向量形式的词袋向量,图4-1显示了特征空间中的四个词袋向量。 要形成文档词汇矩阵,只需将文档向量取出,平放,然后将它们堆叠在一起。 这些列表示词汇表中所有可能的单词。 由于大多数文档只包含所有可能单词的一小部分,因此该矩阵中的大多数都是零,是一个稀疏矩阵。
image

包含5个文档7个单词的文档-词汇矩阵


特征缩放方法本质上是对数据矩阵的列操作。特别的,tf-idf和L2归一化都将整列(例如n-gram特征)乘上一个常数。

Tf-idf=列缩放
Tf-idf和L2归一化都是数据矩阵上的列操作。 正如附录A所讨论的那样,训练线性分类器归结为寻找最佳的线性组合特征,这是数据矩阵的列向量。 解空间的特征是列空间和数据矩阵的空间。训练过的线性分类器的质量直接取决于数据矩阵的零空间和列空间。 大的列空间意味着特征之间几乎没有线性相关性,这通常是好的。 零空间包含“新”数据点,不能将其表示为现有数据的线性组合; 大的零空间可能会有问题。(强烈建议希望对诸如线性决策表面,特征分解和矩阵的基本子空间等概念进行的回顾的读者阅读附录A。)

列缩放操作如何影响数据矩阵的列空间和空间? 答案是“不是很多”。但是在tf-idf和L2归一化之间有一个小小的差别。

由于几个原因,数据矩阵的零空间可能很大。 首先,许多数据集包含彼此非常相似的数据点。 这使得有效的行空间与数据集中数据的数量相比较小。 其次,特征的数量可以远大于数据的数量。 词袋特别擅长创造巨大的特征空间。 在我们的Yelp例子中,训练集中有29K条评论,但有47K条特征。 而且,不同单词的数量通常随着数据集中文档的数量而增长。 因此,添加更多的文档不一定会降低特征与数据比率或减少零空间。

在词袋模型中,与特征数量相比,列空间相对较小。 在相同的文档中可能会出现数目大致相同的词,相应的列向量几乎是线性相关的,这导致列空间不像它可能的那样满秩。 这就是所谓的秩亏。 (就像动物缺乏维生素和矿物质一样,矩阵秩亏,输出空间也不会像应该那样蓬松)。

秩亏行空间和列空间导致模型空间预留过度的问题。 线性模型为数据集中的每个特征配置权重参数。 如果行和列空间满秩$^1$,那么该模型将允许我们在输出空间中生成任何目标向量。 当模型不满秩时,模型的自由度比需要的更大。 这使得找出解决方案变得更加棘手。

可以通过特征缩放来解决数据矩阵的不满秩问题吗? 让我们来看看。
image
如果该向量与目标输出不相关,那么这将有效地修剪掉噪声信号,这是一件好事。 这是tf-idf和L2归一化之间的关键区别。 L2归一化永远不会计算零的范数,除非该向量包含全零。 如果向量接近零,那么它的范数也接近于零。 按照小规范划分将突出向量并使其变大。

另一方面,如图4-2所示,Tf-idf可以生成接近零的缩放因子。 当这个词出现在训练集中的大量文档中时,会发生这种情况。 这样的话有可能与目标向量没有很强的相关性。 修剪它可以使模型专注于列空间中的其他方向并找到更好的解决方案。 准确度的提高可能不会很大,因为很少有噪声方向可以通过这种方式修剪。

在特征缩放的情况下,L2和tf-idf对于模型的收敛速度确实有促进。 这是该数据矩阵有一个更小的条件数的标志。 事实上,L2归一化使得条件数几乎一致。 但情况并非条件数越多,解决方案越好。 在这个实验中,L2归一化收敛比BOW或tf-idf快得多。 但它对过拟合也更敏感:它需要更多的正则化,并且对优化期间的迭代次数更敏感。

总结
在本章中,我们使用tf-idf作为入口点,详细分析特征变换如何影响(或不)模型。Tf-idf是特征缩放的一个例子,所以我们将它的性能与另一个特征缩放方法-L2标准化进行了对比。

结果并不如预期。Tf-idf和L2归一化不会提高最终分类器的准确度,而不会超出纯词袋。 在获得了一些统计建模和线性代数处理知识之后,我们意识到了为什么:他们都没有改变数据矩阵的列空间。

两者之间的一个小区别是,tf-idf可以“拉伸”字数以及“压缩”它。 换句话说,它使一些数字更大,其他数字更接近 归零。 因此,tf-idf可以完全消除无意义的单词。

我们还发现了另一个特征缩放效果:它改善了数据矩阵的条件数,使线性模型的训练速度更快。 L2标准化和tf-idf都有这种效果。

总而言之,正确的特征缩放可以有助于分类。 正确的缩放突出了信息性词语,并降低了常见单词的权重。 它还可以改善数据矩阵的条件数。 正确的缩放并不一定是统一的列缩放。

这个故事很好地说明了在一般情况下分析特征工程的影响的难度。 更改特征会影响训练过程和随后的模型。 线性模型是容易理解的模型。 然而,它仍然需要非常谨慎的实验方法和大量的深刻的数学知识来区分理论和实际的影响。 对于更复杂的模型或特征转换来说,这是不可能的。

原文发布时间为:2018-12-16
本文作者:机器学习AI算法工程
本文来自云栖社区合作伙伴“ 机器学习AI算法工程”,了解相关信息可以关注“datayx”微信公众号

相关文章
|
算法
【文本分类】基于改进CHI和PCA的文本特征选择
【文本分类】基于改进CHI和PCA的文本特征选择
103 0
【文本分类】基于改进CHI和PCA的文本特征选择
|
机器学习/深度学习 数据采集 自然语言处理
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
186 0
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
252 0
TF-IDF及相似度计算
|
搜索推荐 索引
空间向量模型和tf-idf
空间向量模型和tf-idf
291 0
空间向量模型和tf-idf
|
算法 Python
ML之LightGBM:基于titanic数据集利用LightGBM和shap算法实现数据特征的可解释性(量化特征对模型贡献度得分)
ML之LightGBM:基于titanic数据集利用LightGBM和shap算法实现数据特征的可解释性(量化特征对模型贡献度得分)
ML之LightGBM:基于titanic数据集利用LightGBM和shap算法实现数据特征的可解释性(量化特征对模型贡献度得分)
|
机器学习/深度学习 数据挖掘 算法框架/工具
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
|
机器学习/深度学习 算法框架/工具
Keras之DNN:利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型实现预测新数据(利用糖尿病数据集的八个特征进行二分类预测
Keras之DNN:利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型实现预测新数据(利用糖尿病数据集的八个特征进行二分类预测
Keras之DNN:利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型实现预测新数据(利用糖尿病数据集的八个特征进行二分类预测
|
算法框架/工具
Keras之MLP:利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型实现预测新数据(利用糖尿病数据集的八个特征实现二分类预测
Keras之MLP:利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型实现预测新数据(利用糖尿病数据集的八个特征实现二分类预测
Keras之MLP:利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型实现预测新数据(利用糖尿病数据集的八个特征实现二分类预测
|
机器学习/深度学习 算法 TensorFlow
TF之LSTM:利用LSTM算法对mnist手写数字图片数据集(TF函数自带)训练、评估(偶尔100%准确度,交叉熵验证)
TF之LSTM:利用LSTM算法对mnist手写数字图片数据集(TF函数自带)训练、评估(偶尔100%准确度,交叉熵验证)
TF之LSTM:利用LSTM算法对mnist手写数字图片数据集(TF函数自带)训练、评估(偶尔100%准确度,交叉熵验证)
|
机器学习/深度学习 算法 算法框架/工具
Keras之DNN:利用DNN算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病数据集训练、评估模型(利用糖尿病数据集中的八个参数特征预测一个0或1结果)
Keras之DNN:利用DNN算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病数据集训练、评估模型(利用糖尿病数据集中的八个参数特征预测一个0或1结果)
Keras之DNN:利用DNN算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病数据集训练、评估模型(利用糖尿病数据集中的八个参数特征预测一个0或1结果)