特征工程-个人信用评估

简介: 可以用于形成特征矩阵的共有5个表:1.用户基本属性表2.银行流水记录表3.用户浏览行为表4.信用卡账单记录表5.放款时间信息表1.用户基本属性表字段注释1用户id整数2性别枚举值(0表示性别未知)3职业枚举值4教育程度枚举值5婚姻状况枚举值6户口类型枚举值1.

可以用于形成特征矩阵的共有5个表:
1.用户基本属性表
2.银行流水记录表
3.用户浏览行为表
4.信用卡账单记录表
5.放款时间信息表

1.用户基本属性表

字段 注释
1 用户id 整数
2 性别 枚举值(0表示性别未知)
3 职业 枚举值
4 教育程度 枚举值
5 婚姻状况 枚举值
6 户口类型 枚举值

1.职业做One-Hot编码
2.教育程度做One-Hot编码
3.婚姻状况做One-Hot编码
4.户口类型做One-Hot编码

2.银行流水记录表

字段 注释
1 用户id 整型
2 时间戳 整型(0表示未知)
3 交易类型 枚举值(1表示收入,0表示支出)
4 交易金额 浮点型
5 工资收入标记 枚举值(1表示工资收入)

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.工资收入标记做One-Hot编码
5.交易类型与交易金额做正负数值交易金额字段

3.用户浏览行为表

字段 注释
1 用户id 整型
2 时间戳 整数(0表示未知)
3 浏览行为数据 整型
4 浏览子行为编号 枚举型

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.浏览子行为做One-Hot编码
5.浏览子行为做统计计数

4.信用卡账单记录表

字段 注释
1 用户id 整型
2 账单时间戳 整数(0表示未知)
3 银行id 枚举型
4 上期账单金额 浮点型
5 上期还款金额 浮点型
6 信用卡额度 浮点型
7 本期账单余额 浮点型
8 本期账单最低还款额 浮点型
9 消费笔数 整数
10 本期账单金额 浮点型
11 调整金额 浮点型
12 循环利息 浮点型
13 可用金额 浮点型
14 预借现金额度 浮点型
15 还款状态 枚举值

1.账单时间戳按星期分箱
2.账单时间戳按月分箱
3.账单时间戳是否工作日
4.银行id做One-Hot编码
5.信用卡额度是否低于某个值
6.上期还款金额是否低于某个值
7.上期账单金额是否高于某个值
8.本期账单余额是否高于某个值
9.本期最低还款额是否高于某个值
10.消费笔数是否高于某个值
11.本期账单金额是否高于某个值
12.循环利息是否高于某个值
13.可用金额是否高于某个值
14.预借现金额度是否高于某个值
15.还款状态做One-Hot编码
16.信用卡计数
17.每个用户在不同银行的每张信用卡信用额度的聚合计算,包括最大值、最小值、均值和标准差。

5.放款时间表

字段 注释
1 用户id 整型
2 放款时间 整数

1 放款时间按星期分箱
2 放款时间按月分箱
3 放款时间是否工作日
4.放款时间期间是否有银行账单或者信用账单突变

6.总结

img_c73ef07bddb470e7e146efff21df4d60.png
特征工程.png

特征工程中的大部分特征可以分为2类:
1.基于时间窗口对连续变量做统计特征,这是特征工程中常用的方法,尤其是对于一个用户对应多条记录的数据表。第一,通过这些统计特征可以提取出用户在某个变量上大致的分布情况;第二,这为特征工程带来大量细分化且包含信息量大的特诊。
2.每个用户在特殊时间点的具体特征值,这些时间点包括最初、最终以及贷款前后,这些时间点所包含的信息量比一般时间点要大,与预测目标值的关联程度也更大。

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 Python
LightGBM中的特征选择与重要性评估
LightGBM中的特征选择与重要性评估【2月更文挑战第1天】
138 0
|
6月前
|
机器学习/深度学习
评分是机器学习领域中的一种评估模型性能的指标
评分是机器学习领域中的一种评估模型性能的指标
51 1
|
数据挖掘 开发者 Windows
聚类分析评估 下|学习笔记
快速学习聚类分析评估 下
411 0
聚类分析评估 下|学习笔记
|
25天前
|
机器学习/深度学习 测试技术
大模型开发:描述交叉验证以及为什么在模型评估中使用它。
交叉验证是评估机器学习模型性能的方法,通过将数据集分成训练集和多份子集(折叠)进行多次训练验证。每次选择一份子集作为验证集,其余作训练,最后平均评估结果。这样能减少过拟合,提供可靠性能估计,用于参数调优,并减少小数据集或噪声带来的随机性影响。它是模型评估的关键技术,确保更准确的性能估计。
11 1
|
2天前
|
机器学习/深度学习 数据采集 算法
使用scikit-learn进行分类:模型选择与评估
【4月更文挑战第17天】本文介绍了使用scikit-learn进行分类任务,包括模型选择和评估。scikit-learn提供多种分类算法如逻辑回归、SVM、决策树等。选择模型需理解问题、预处理数据、设置基准模型、交叉验证、特征重要性分析和调参。评估模型性能有准确率、精确率、召回率、F1分数和混淆矩阵。通过训练、预测和计算指标分析模型效果。示例展示了随机森林分类器的应用。选择和评估模型需根据具体问题和数据集进行。
|
2天前
|
机器学习/深度学习 大数据
如何通过评估方法评估机器学习模型的性能
如何通过评估方法评估机器学习模型的性能
5 0
|
1月前
|
算法
有监督学习的模型评估和选择
有监督学习的模型评估和选择
|
11月前
|
机器学习/深度学习 算法
连载|模型评估与过拟合(上)
连载|模型评估与过拟合(上)
|
11月前
|
算法
连载|模型评估与过拟合(下)
连载|模型评估与过拟合(下)
二、模型评估
模型评估的相关问题
66 0
二、模型评估