备案控制台

开发者社区

开发者社区> 问答> 正文

PySpark线性回归数据集中具有比数据点更多的特征

我正在使用PySpark开发一个简单的文本挖掘应用程序。目标是将特定文档分类为垃圾邮件或非垃圾邮件。我有大约1000个文件来训练模型（n）。

清理数据（正交误差校正，词干等）后，我使用IDF提取特征向量。默认情况下，此向量化方法的要素维度为2 ^ 18 = 262144，这意味着我将总共有262144个高度稀疏的要素（p）。

考虑到p >> n：

我记得，根据我发现的一些文章和网络文章，在不做任何特征缩减的情况下，不可能对这种类型的数据应用线性回归，否则算法会失败（因为当p> n时，方差将是无穷）。

为了测试这个，我在我的数据上运行了一个线性回归：

...

idf_stage = IDF(inputCol=hashingTF.getOutputCol(), outputCol="features", minDocFreq=1)
lr = LinearRegression(maxIter=10, tol=1E-6)

pipeline = Pipeline(stages=[..., idf_stage, lr])

model = pipeline.fit(train)
results = model.transform(test)
results.select("label", "prediction").show()
我得到了以下结果：

label	prediction
1.0	0.8123660495998272
1.0	0.9485273761704205
0.0	0.25039087467730653
1.0	1.2359878831283708
0.0	-0.14295806192187976
...

有几件我无法弄清楚的事情：

问题1：当p> n时，如果说线性回归算法会失败，那么失败的意义是什么？它应该根本不起作用并抛出异常或者它应该运行但是返回不应该考虑的结果吗？

问题2：如果算法应抛出异常，为什么它会运行？Spark是否会在幕后进行任何功能缩减？

问题3：由于使用变量变换可以将Logistic回归转化为线性回归问题，当p> n时，它会出现同样的问题吗？

展开

收起

社区小助手 2018-12-05 13:33:41 3280 0

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

只有在使用封闭形式解决方案时才会出现故障：
（X T X）-1 X T y
并应用了额外的验证。
但是，这不是唯一可以使用的方法，而不是Spark中通常使用的方法。可以使用数值方法，如
使用pseudoinverse。这是通常在不同包中实现线性的方式。
迭代优化程序包括梯度下降的不同变体。
即使（X T X）不可逆或病态也可以使用。当然不能保证这些会产生任何合理的解决方案。
仅当要素数低于4096（默认值为）时，默认情况下才o.a.s.ml.regression.LinearRegression使用闭合形式解（“普通”求解器LinearRegression.MAX_FEATURES_FOR_NORMAL_SOLVER

2019-07-17 23:18:20

赞同展开评论打赏

问答分类：

分布式计算算法 Spark

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

scikit-learn的cluster模块中提供KMeans类实现K-均值聚类会使用什么参数？

342

1

0

怎么使用scikit-learn的cluster模块中提供KMeans类实现K-均值聚类呢？

377

1

0

鸢尾花数据集包括哪些数据特征呢？

624

1

0

利用Scikit-Learn对数据进行逻辑回归分析的步骤是什么呢？

1345

1

0

Spark MLlib中的回归算法的作用是什么？

323

1

0

Spark MLlib中的分类算法的作用是什么？

381

1

0

Spark MLlib中的聚类算法的作用是什么？

367

1

0

Spark MLlib中的协同过滤的作用是什么？

286

1

0

spark使用MLlib的注意点有什么？

260

1

0

spark MLlib中操作向量需要注意的地方有哪些？

363

1

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699508

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818157

3 据说在家办公的程序员是这样写代码的？ 1792074

4 阿里云开放端口权限 689772

5 《阿里云服务器从入门到精通》—论坛精华帖汇总（2013.8.21更新） 599345

6 如何升级配置 536010

7 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522286

8 【精品问答】python技术1000问(1) 513932

9 Flink Forward Asia 2021 有奖问答 512759

10 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456880

11 工信部官网：www.miitbeian.gov.cn打不开解决办法 399443

12 OceanBase 使用动画（持续更新） 359219

13 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329678

14 OSS存储服务-客户端工具 321208

15 为体验实验室取一个新名字。 307146

16 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303631

17 Win Server 2003-2016 加密勒索事件必打补丁合集 295087

18 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283420

19 安全组详解，新手必看教程 277220

20 写code还是做管理，开发者如何进行职业规划？ 268217

1 在做程序员的道路上，你掌握了什么关键的概念或技术让你感到自身技能有了显著飞跃？ 1230

2 作为一个经典架构模式，事件驱动在云时代为什么会再次流行呢？ 981

3 宜搭：提交表单前，如何校验另一张表单的数据？ 185

4 如何看待首个 AI 程序员入职科技公司？ 1830

5 未启用对服务器的访问 491

6 在图像处理应用场景下，Serverless架构的优势体现在哪些方面？ 1467

7 如何处理线程死循环？ 2009

8 宜搭自定义页面，这个是怎么配置的 158

9 Idea 2024.1RC 报错提示 145

10 如何写出更优雅的并行程序？ 1628

11 你认为一个优秀的技术PM应该具备什么样的能力？ 2084

12 宜搭页面复制问题 333

13 宜搭审批节点调用连接器给表单组件赋值 125

14 宜搭在自定义页面保存数据新建表单后如何返回新建表单formInstId值 112

15 Nacos配置了鉴权登录接口返回caused:这个有谁清楚吗？ 128

16 从哪个版本开始nacos分成了两个端口？8848和9848 111

17 钉钉宜搭中要如何实现每日定时自动获取表单1中符合条件的实例数量总和，并赋值给表单2中的某个组件 317

18 宜搭官方的视频板块，图片上是怎么加文字样式的。 165

19 宜搭官方的这种页面是怎么实现的。 217

20 宜搭自定义页面，如何实现这种样式的文字。 115

相关课程

更多

【算法实战】14. 利用PCA来简化数据

42

4

去学习

【算法实战】15. 利用SVD来简化数据

26

5

去学习

【算法实战】11. K-Means（K-均值）聚类算法

99

2

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

机器学习介绍与Spark Mllib实践 立即下载

展心展力MetaApp：基于DeepRec的稀疏模型训练实践 立即下载

纯干货 | 机器学习中梯度下降法的分类及对比分析 立即下载

相关实验场景

更多