显性特征的衍生

简介:

特征的基础处理方式,包括怎么降维、怎么处理脏数据等等。其实特征工程真正的难点是如何结合业务需求衍生出新的特征。结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原有数据字段通过加减乘除等操作生成新的字段,这些字段在结合一些线性算法做训练的时候往往能起到提升模型效果的作用,接下来就简单介绍下特征衍生。

 

因为衍生特征这个方法是需要结合业务特点的,范围太广,所以本文就用一个例子来介绍。今天就用一份NBA比赛数据做例子吧,因为读者大部分是男同学,对于篮球应该比较熟悉,如果是妹子读者的话可以咨询下你的男朋友~

 

球员

投篮数

命中数

比赛场次

全明星

科比

800

400

500

乔丹

500

300

200

上面这份数据我就随便写两个球员哈(非黑),然后随便写了三个特征数据分别是投篮数、命中数、比赛场次,目标列就是是否是明星球员。现在要思考这样的问题,如果只用原始的这三个输入特征去做训练,信息量可能略显单薄。先拿“命中率”来讲,我们都知道在投篮比赛中命中投篮越多表示这个球员越厉害,原始数据中科比的命中数多于乔丹,而只有乔丹是明星,如果这样的数据带入很有可能学出来的效果是“命中球数越多,越不可能成为全明星”,这个理论与我们熟悉的客观事实不符。 

 

真正熟悉篮球的同学肯定会了解,影响一个球员能否成为明星的关键,不是他浪投进了多少,而是更关键的是这个球员的命中率。如果我们衍生一个字段叫命中率,它的计算方式是“命中数/投篮数”,那这个特征对于数据的刻画可能更深刻。于是数据变成了:

球员

投篮数

命中数

命中率

比赛场次

全明星

科比

800

400

0.5

500

乔丹

500

300

0.6

200

 

在真实业务场景中,特征衍生往往要覆盖业务的各个方面,可能要衍生出成百上千的新特征才能更好的描述训练数据集的意义。


转自:https://mp.weixin.qq.com/s?__biz=MzA4MDI0NDQyOQ==&mid=2447500072&idx=1&sn=0fde84f38d4c45a416e392a38cd0e267&chksm=8bb2788abcc5f19c8905f784b35b10ec2d4af9915fa77c0509dcc41c2a070e0e3feca16df2f1&mpshare=1&scene=23&srcid=0206ir0mtPYO9WxkgFr6V9Gw#rd

目录
相关文章
|
2月前
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
GPT-4在逻辑推理和概念关联上的准确率提升至100%,超越ChatGPT,其智力可能超过95%的人。在逻辑和多模态理解上有显著进步,但数数和某些逻辑推理仍是挑战。擅长处理成本计算和复杂情境,能建立概念间的间接关联,如遗忘与老龄化的联系。在数学和物理领域表现出色,但处理复杂间接关系和抽象概念时仍有局限。总体而言,GPT-4展现出超越人类智能的潜力,但仍需面对认知任务的挑战。![GPT-4进步示意](https://developer.aliyun.com/profile/oesouji3mdrog/highScore_1?spm=a2c6h.132)查看GPT-5教程,可访问我的个人主页介绍。
40 0
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
|
9天前
|
数据可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
|
2月前
|
机器学习/深度学习 SQL 算法
如何在因果推断中更好地利用数据?
本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
|
20天前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
20天前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
19天前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
34 6
|
19天前
|
定位技术 计算机视觉 Windows
生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
|
20天前
|
定位技术 计算机视觉 Windows
R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
|
9月前
|
机器学习/深度学习 算法 数据可视化
使用大规模无监督学习建立高层特征
翻译:《Building High-level Features Using Large Scale Unsupervised Learning》
|
10月前
|
机器学习/深度学习 算法 计算机视觉
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力(1)
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力
102 0