特征工程-个人信用评估-阿里云开发者社区

特征工程-个人信用评估

2018-09-03 1635

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 可以用于形成特征矩阵的共有5个表：1.用户基本属性表2.银行流水记录表3.用户浏览行为表4.信用卡账单记录表5.放款时间信息表1.用户基本属性表字段注释1用户id整数2性别枚举值(0表示性别未知)3职业枚举值4教育程度枚举值5婚姻状况枚举值6户口类型枚举值1.

可以用于形成特征矩阵的共有5个表：
1.用户基本属性表
2.银行流水记录表
3.用户浏览行为表
4.信用卡账单记录表
5.放款时间信息表

1.用户基本属性表

	字段	注释
1	用户id	整数
2	性别	枚举值(0表示性别未知)
3	职业	枚举值
4	教育程度	枚举值
5	婚姻状况	枚举值
6	户口类型	枚举值

1.职业做One-Hot编码
2.教育程度做One-Hot编码
3.婚姻状况做One-Hot编码
4.户口类型做One-Hot编码

2.银行流水记录表

	字段	注释
1	用户id	整型
2	时间戳	整型(0表示未知)
3	交易类型	枚举值(1表示收入,0表示支出)
4	交易金额	浮点型
5	工资收入标记	枚举值(1表示工资收入)

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.工资收入标记做One-Hot编码
5.交易类型与交易金额做正负数值交易金额字段

3.用户浏览行为表

	字段	注释
1	用户id	整型
2	时间戳	整数(0表示未知)
3	浏览行为数据	整型
4	浏览子行为编号	枚举型

1.时间戳按星期分箱
2.时间戳按月分箱
3.时间戳是否工作日
4.浏览子行为做One-Hot编码
5.浏览子行为做统计计数

4.信用卡账单记录表

	字段	注释
1	用户id	整型
2	账单时间戳	整数(0表示未知)
3	银行id	枚举型
4	上期账单金额	浮点型
5	上期还款金额	浮点型
6	信用卡额度	浮点型
7	本期账单余额	浮点型
8	本期账单最低还款额	浮点型
9	消费笔数	整数
10	本期账单金额	浮点型
11	调整金额	浮点型
12	循环利息	浮点型
13	可用金额	浮点型
14	预借现金额度	浮点型
15	还款状态	枚举值

1.账单时间戳按星期分箱
2.账单时间戳按月分箱
3.账单时间戳是否工作日
4.银行id做One-Hot编码
5.信用卡额度是否低于某个值
6.上期还款金额是否低于某个值
7.上期账单金额是否高于某个值
8.本期账单余额是否高于某个值
9.本期最低还款额是否高于某个值
10.消费笔数是否高于某个值
11.本期账单金额是否高于某个值
12.循环利息是否高于某个值
13.可用金额是否高于某个值
14.预借现金额度是否高于某个值
15.还款状态做One-Hot编码
16.信用卡计数
17.每个用户在不同银行的每张信用卡信用额度的聚合计算，包括最大值、最小值、均值和标准差。

5.放款时间表

	字段	注释
1	用户id	整型
2	放款时间	整数

1 放款时间按星期分箱
2 放款时间按月分箱
3 放款时间是否工作日
4.放款时间期间是否有银行账单或者信用账单突变

6.总结

特征工程.png

特征工程中的大部分特征可以分为2类：
1.基于时间窗口对连续变量做统计特征，这是特征工程中常用的方法，尤其是对于一个用户对应多条记录的数据表。第一，通过这些统计特征可以提取出用户在某个变量上大致的分布情况；第二，这为特征工程带来大量细分化且包含信息量大的特诊。
2.每个用户在特殊时间点的具体特征值，这些时间点包括最初、最终以及贷款前后，这些时间点所包含的信息量比一般时间点要大，与预测目标值的关联程度也更大。

特征工程-个人信用评估

1.用户基本属性表

2.银行流水记录表

3.用户浏览行为表

4.信用卡账单记录表

5.放款时间表

6.总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景