《Scala机器学习》一一2.2 序贯试验和风险处理

简介: 本节书摘来自华章出版社《Scala机器学习》一 书中的第2章,第2.2节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 序贯试验和风险处理
如果风险偏好是为了多赚钱,但不会太在意丢失本金,那会怎么样呢?本节将简单研究为什么人的偏好是不对称的,并且也有科学证据表明:由于进化的原因,这种不对称性在我们的头脑中根深蒂固。
不过必须要对参数化非对称函数的期望值进行优化,函数具体形式如下:

![image](https://yqfile.alicdn.com/595860d9091f51896de2f9e2dfe041d2366fc1fb.png)
                                           (2-1)

为什么在分析中会出现非对称函数?一个例子是重复投注或重新投资,也称为Kelly准则问题。最初的Kelly准则是为了研究赌博机中的二元结果,以及优化每一轮赌博中钱的分配而发展起来的(A New Interpretation of Information Rate, Bell System Technical Journal 35 (4): 917–926, 1956)。作为再投资问题更通用的公式会涉及潜在收益的概率分布。
多个投注的回报由单个投注回报率相乘得到。回报率是赌博完成之后的资金与单独投注之前的原始资金的比率。其公式如下:
image
由于不知道如何优化独立同分布随机变量的积,因此不能优化总回报。可使用对数变换将积转换为和,然后应用CLT(中心极限定理)来近似独立同分布变量之和(假设ri的分布符合CLT条件,比如其均值和方差是有限的)。具体转换如下:

![image](https://yqfile.alicdn.com/9a27d6b6916168c866ae0d0f1f33364911d5a81d.png)

因此,N次投注累积的结果像是进行N次期望回报为exp(E(log(ri)))的投注,而不是E(ri)!
正如之前提到的,这个问题经常被应用于二元投注中,尽管它可以简单地推广到一般情形,但这会附加一个参数:x,它是每轮投注的金额。假设获利W的概率为p(损失所有投注的概率为1―p),优化带有附加参数的期望回报函数:

image

最后这个等式就是Kelly准则比率,它给出投注的最优金额。
投注小于总金额的原因是:即使平均回报为正数,但仍有一定的概率丢掉全部资金,特别是在信息极不平衡的情况下。比如,即使有0.105的概率得到10倍的回报(W=10,期望的回报是5%),组合分析表明,在60局之后,所有回报为负的概率大约为50%。实际上损失27倍(或更多)的投注的概率为11%:

imageimage
image

注意,要达到27倍的收入,平均只需要玩log(27)/log(1.05)=68局。虽然这些都是有利的几率(odd),但从最开始就是在赌。Kelly准则假设最优的投注只是资金的1.55%,注意如果投入全部的资金,会以89.5% 的概率在第一局就输光(赢的概率只有0.105)。如果开始以资金的若干分之一下注,会有很大的可能性继续进行,但是总的回报会更小。图2-3为期望回报的对数图,它是投注金额x的函数,并且只计算了在60轮赌局中收入的可能分布。博弈(game)结果的24%会比最低的曲线差,39%会差于次低的曲线,44%~50%会好于或者等同于中间黑色的曲线,30%可能会高于最上面的一条曲线。x的最优Kelly准则值是0.0155,它最终将在无限多轮的博弈中优化所得的总回报:image

图2-3 期望回报值与投注数量之间的对数函数,这是计算60轮后的结果(参见式(2-2))
有人认为Kelly准则过于激进(赌徒通常会高估自己获胜的可能/获胜率,而低估失败的概率),也有人认为过于保守(风险价值应该是总的可用资本,而不仅仅是资金本身),但是它给出了这样一个事实:需要使用额外的方式来弥补直觉理解的不足。
从金融的观点来看,Kelly准则更像是风险描述,而不是作为波动的标准定义(或回报的方差)。对于通用的参数化回报分布y(z),其概率分布函数为f (z)。若定义r(x)=1+x y(z)(其中x是投注的数量),则式(2-3)可以重新表示为如下形式:

image

                                      (2-5)

在离散情况下也可以写为如下形式:
image

                                  (2-6)

该式子中分母强调的是来自负收益区域的贡献。具体而言,损失全部资金意味着分母(1+xy(z))为0。
正如前面提到的一个有趣现象:风险规避是基于人们的直觉。人类和灵长类动物似乎天生就有一种厌恶风险的偏好(A Monkey Economy as Irrational as Ours by Laurie Santos,TED talk,2010)。现在关注另一个颇有争议的话题—探索与利用的权衡,人们对这些内容的了解还不如前面的回报权衡问题。

相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
35 1
|
2月前
|
机器学习/深度学习 存储 监控
使用Scala编写控制局域网上网软件的机器学习算法
在当今数字化世界中,对于使用控制局域网上网软件控制上网活动的需求越来越迫切。无论是家庭、学校还是企业,都需要有效的方法来监控和管理用户在局域网上的上网行为。本文将介绍如何使用Scala编写机器学习算法来实现这一目标,同时提供一些代码示例来说明具体的实现方式。
125 0
|
5月前
|
机器学习/深度学习 算法
机器学习(八)经验风险与结构风险
机器学习(八)经验风险与结构风险
55 0
|
机器学习/深度学习 测试技术
机器学习预测信贷风险(下)
机器学习预测信贷风险(下)
267 0
机器学习预测信贷风险(下)
|
机器学习/深度学习 测试技术
利用机器学习进行金融数据风险评估(4)
利用机器学习进行金融数据风险评估(4)
292 0
利用机器学习进行金融数据风险评估(4)
|
机器学习/深度学习
利用机器学习进行金融数据风险评估(3)
利用机器学习进行金融数据风险评估(3)
173 0
利用机器学习进行金融数据风险评估(3)
|
机器学习/深度学习 数据格式
利用机器学习进行金融数据风险评估(2)
利用机器学习进行金融数据风险评估(2)
190 0
利用机器学习进行金融数据风险评估(2)
|
机器学习/深度学习 数据安全/隐私保护 Python
利用机器学习进行金融数据风险评估(1)
利用机器学习进行金融数据风险评估(1)
430 0
利用机器学习进行金融数据风险评估(1)
|
机器学习/深度学习 云安全 存储
机器学习对抗流量中的风险,阿里云入选创新攻关成果目录
近日,上海市经济信息化委发布关于《2021年度上海市网络安全产业创新攻关成果目录》的通知,阿里云作为唯一云厂商,其网络流量风险智能对抗体系被“人工智能”项目收录,阿里云将机器学习技术用于应对复杂网络安全对抗的技术实力得到认可。
233 0
机器学习对抗流量中的风险,阿里云入选创新攻关成果目录