备案控制台

开发者社区

开发者社区人工智能文章正文

【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分

2017-07-31 1813

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，5000CU*H 3个月

简介： 背景如果你是做互联网金融的，那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法，评分卡并不简单对应于某一种机器学习算法，而是一种通用的建模框架，将原始数据通过分箱后进行特征工程变换，继而应用于线性模型进行建模的一种方法。评分卡建模理论常被用于各种信用评估领域，比如信用卡风险评估、贷款发放等业务。另外，在其它领域评分卡常被用来作为分数评估，比如常见的客服质

背景

如果你是做互联网金融的，那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法，评分卡并不简单对应于某一种机器学习算法，而是一种通用的建模框架，将原始数据通过分箱后进行特征工程变换，继而应用于线性模型进行建模的一种方法。

评分卡建模理论常被用于各种信用评估领域，比如信用卡风险评估、贷款发放等业务。另外，在其它领域评分卡常被用来作为分数评估，比如常见的客服质量打分、芝麻信用分打分等等。在本文中，我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件，搭建出一套评分卡建模方案。

本实验案例可在机器学习PAI平台使用，包含整个实验流程和数据：

数据集介绍

这是一份国外某机构开源的数据集，数据的内容包括每个用户的一些性别、教育、婚姻、年龄等属性，同时也包含用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列，表示用户是否偿还信用卡账单，1表示偿还，0表示没有偿还。

数据供30000条。
数据集下载地址：https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

实验流程

先来看下实验图:

现在对一些关键节点进行介绍：

（1）拆分

将输入数据集分为两部分，一部分用来训练模型，另一部分用来预测评估。

（2）分箱

分箱组件类似于onehot编码，可以将数据按照分布映射成更高维度的特征。我们以age这个字段为例，分箱组件可以按照数据在不同区间的分布进行分享操作，分箱结果如图：

最终分箱组件的输出如图，每个字段都被分箱到多个区间上：

（3）样本稳定指数PSI

样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标，通常用来衡量样本的稳定程度，比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著，在0.1到0.25之间表示有比较显著的变化，大于0.25表示变量变化比较剧烈，需要特殊关注。

本案例中，可以综合比较拆分前后以及分箱结果的样本稳定程度，返回每个特征的PSI数值：

（4）评分卡训练

评分卡训练的结果图如下:

评分卡的精髓是将复杂的比较难理解的一些模型权重用符合业务标准的分数表示。

intercepy表示的是截距
Unscaled是原始的权重值
Scaled是分数更改指标，比如对于pay_0这个特征，如果特征落在(-1,0]之间分数就减29，如果特征落在（0，1]之间分数就加上27.
importance表示每个特征对于结果的影响大小，数值越大表示影响越大

（5）评分卡预测

展示每个预测结果的最终评分，在本案例中表示的是每个用户的信用评分。

结论

基于用户的信用卡消费记录，最终通过评分卡模型的训练，我们在评分卡预测中可以拿到每个用户的最终信用评分，这个评分可以应用到其它的各种贷款或者金融相关的征信领域中去。

体验产品：阿里云数加机器学习平台

作者微信公众号(与作者讨论)：

文章标签：

人工智能平台 PAI

算法

机器学习/深度学习

关键词：

机器学习算法

人工智能平台 PAI算法

人工智能平台 PAI实践

机器学习平台 PAIpai

机器学习平台 PAI算法

相关实践学习

使用PAI-EAS一键部署ChatGLM及LangChain应用

本场景中主要介绍如何使用模型在线服务（PAI-EAS）部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理，并通过LangChain集成自己的业务数据。

机器学习概览及常见算法

机器学习(Machine Learning, ML)是人工智能的核心，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本课程将带你入门机器学习，掌握机器学习的概念和常用的算法。

傲海

目录

相关文章

游客i66wb7w7cg4tk

|

21天前

|

机器学习/深度学习算法搜索推荐

Machine Learning机器学习之决策树算法 Decision Tree（附Python代码）

Machine Learning机器学习之决策树算法 Decision Tree（附Python代码）

游客i66wb7w7cg4tk

49 0 0

wljslmz

|

13天前

|

机器学习/深度学习自然语言处理算法

机器学习算法的基本概念、分类和评价标准，以及一些常用的机器学习算法的原理和特点

【4月更文挑战第6天】

wljslmz

30 2 2

4as3qn2go3ure

|

1天前

|

机器学习/深度学习算法搜索推荐

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

4as3qn2go3ure

26 12 12

大模型服务小助手

|

6天前

|

存储 JSON 自然语言处理

大模型服务平台百炼之模型训练与调优实践分享|快来围观~

模型调优是通过Fine-tuning训练模式提高模型效果的功能模块，作为重要的大模型效果优化方式，用户可以通过构建符合业务场景任务的训练集，调整参数训练模型，训练模型学习业务数据和业务逻辑，最终提高在业务场景中的模型效果。

大模型服务小助手

84 0 0

桃李春风一杯酒

|

29天前

|

机器学习/深度学习分布式计算算法

大模型开发：你如何确定使用哪种机器学习算法？

在大型机器学习模型开发中，选择算法是关键。首先，明确问题类型（如回归、分类、聚类等）。其次，考虑数据规模、特征数量和类型、分布和结构，以判断适合的算法。再者，评估性能要求（准确性、速度、可解释性）和资源限制（计算资源、内存）。同时，利用领域知识和正则化来选择模型。最后，通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。

桃李春风一杯酒

28 2 2

叫个什么名字

|

1月前

|

机器学习/深度学习存储搜索推荐

利用机器学习算法改善电商推荐系统的效率

电商行业日益竞争激烈，提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统，通过分析用户行为数据和商品信息，实现个性化推荐，从而提高推荐效率和准确性。

叫个什么名字

75 14 14

东方睿赢

|

1月前

|

机器学习/深度学习算法数据可视化

实现机器学习算法时，特征选择是非常重要的一步，你有哪些推荐的方法？

实现机器学习算法时，特征选择是非常重要的一步，你有哪些推荐的方法？

东方睿赢

27 1 1

java菌

|

1月前

|

机器学习/深度学习数据采集算法

解码癌症预测的密码：可解释性机器学习算法SHAP揭示XGBoost模型的预测机制

解码癌症预测的密码：可解释性机器学习算法SHAP揭示XGBoost模型的预测机制

java菌

109 0 0

java菌

|

1月前

|

机器学习/深度学习数据采集监控

机器学习-特征选择：如何使用递归特征消除算法自动筛选出最优特征？

机器学习-特征选择：如何使用递归特征消除算法自动筛选出最优特征？

java菌

68 0 0

技术混子

|

1月前

|

机器学习/深度学习人工智能算法

探索机器学习中的支持向量机（SVM）算法

【2月更文挑战第20天】在数据科学与人工智能的领域中，支持向量机（SVM）是一种强大的监督学习算法，它基于统计学习理论中的VC维理论和结构风险最小化原理。本文将深入探讨SVM的核心概念、工作原理以及实际应用案例。我们将透过算法的数学原理，揭示如何利用SVM进行有效的数据分类与回归分析，并讨论其在处理非线性问题时的优势。通过本文，读者将对SVM有更深层次的理解，并能够在实践中应用这一算法解决复杂的数据问题。

技术混子

19 0 0

热门文章

最新文章

Machine Learning机器学习之贝叶斯网络(BayesianNetwork)

机器学习库：numpy

机器学习第11天：降维

构建高效机器学习模型：从特征工程到模型调优

构建高效机器学习模型：从数据预处理到模型优化

机器学习PAI常见问题之配了exporter_type: "final"，训练完却没有如何解决

构建高效机器学习模型的最佳实践

构建高效机器学习模型的五大技巧

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

fast.ai 机器学习笔记（四）（2）

Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型

圆堆图circle packing算法可视化分析电商平台网红零食销量采集数据

＜每日算法：一文带你认识 “ 双指针算法 ” ＞

用N-S流程图表示算法

软件体系结构 - 调度算法(3) 单调速率调度算法

【视频】Copula算法原理和R语言股市收益率相依性可视化分析-1

对称密钥加密算法和公开密钥加密算法有什么区别

基于DCT和扩频的音频水印嵌入提取算法matlab仿真

双指针（基础算法题）

代码随想录算法训练营第六十天 | LeetCode 84. 柱状图中最大的矩形

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

神经网络概览及算法详解

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

微博机器学习平台架构和实践

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

使用计算巢AI应用，轻松定制个人数字形象

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）