Google和facebook如何应用R进行数据挖掘

简介: Google和facebook如何应用R进行数据挖掘 在R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是: Bo Cowgill, Google Itamar Rosenn, Facebook David Smith, Revolution  Computing Jim Porzak, The Generations  Network 他们分别介绍了在各个公司是如何使用R进行预测分析,R作为分析工具的优势和劣势,并且提供了学习案例,以下是对他们的介绍的相关总结。
0.jpg

Googlefacebook如何应用R进行数据挖掘

R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是:

Bo Cowgill, Google

Itamar Rosenn, Facebook

David Smith, Revolution  Computing

Jim Porzak, The Generations  Network

他们分别介绍了在各个公司是如何使用R进行预测分析,R作为分析工具的优势和劣势,并且提供了学习案例,以下是对他们的介绍的相关总结。

Panel介绍

R作为一门编程语言在以下三个方面具有很强的优势:数据处理,统计和数据可视化。和其他数据分析工具不同的是,它是由统计学家开发的,它是免费的软件,并且可以通过用户开发的包进行扩展,目前大约有2000多个包在CRAN中。

很多包可以应用在预测分析中。Jim重点介绍了Max Kuhncaret包,它提供了大量的分类和回归模型,包括神经网络和朴素贝叶斯模型。

Bo Cowgill, Google

根据Bo Cowgill的介绍,Rgoogle最流行的统计分析包,事实上,google也是R基础的捐助者。他讲述道:R最好的事情是,它是统计学家发明的。它最糟糕的事情是,它是统计学家发明的。无论如何,他很乐观地看待R开发者社区的发展,R文档也逐步在改进,它的性能也在逐步提高。

Google主要使用R进行数据探索和构建模型原型,它并不是应用在生产系统,在Bo的团队中,R主要运行在桌面环境中。Bo主要根据以下的流程使用R:(1)使用其他的工具提取数据;(2)将数据加载到R中;(3)使用R建模分析;(4)在生产环境中使用c++或者python实现结果模型。

Itamar Rosenn, Facebook

Itamar介绍了facebook数据团队使用R的情况,他回答了新用户提数的两个问题:预测用户是否保持在某个数据点,如果他们停留,如何预测他们在三个月之后是否还会停留。

对于第一个问题,Itamar的团队使用递归划分推断出仅仅两个数据点被预测出来用户是否保留在facebook:(1)新用户拥有多个会话;(2)输入用户基本信息时。

对于第二个问题,他们使用最小角度回归方法建立逻辑回归模型(lars包),根据三个类别的行为发现用户三个月的活动:(1)用户被其他用户访问的频率;(2)第三方应用程序使用的频率;(3)即将访问该站点的用户。

David Smith, Revolution  Computing

David的公司,R改革计算,不仅仅使用R,而且R是他们的核心业务。David描述道:他们对R的贡献类似于redhatlinux的贡献。他的公司处理使用R遇到的一些问题,例如,(1)支持老版本软件,即向下兼容;(2)通过他们的ParallelR套件可以支持并行计算。

David展示了他们的生命科学客户是如何使用R通过randomForest包对基因组数据集进行分类处理,以及如何使用他们的foreach包对分类树分析进行并行处理。

他还提到他们和其他公司合作将R应用在生产环境中,将特定的脚本放在服务器上,用户通过客户端调用该脚本进行数据处理。

Jim Porzak, The Generations  Network

Jim简单介绍了如何使用R进行市场分析。尤其是,Jim还使用flexclustsun公司的客户数据进行聚类分析,并且应用该结果数据识别高价值销售的主导业务。

Q&A;环节,还有很多提问,并且进行了回答。

1在使用R的过程中,如何解决内存限制问题?

R工作区是在RAM上,因此他的大小是受到限制的。

办法:

(1)使用R的数据库连接功能(例如RMySQL),对数据进行切片处理

(2)抽样处理

(3)在独立的服务器或者在amazon的云计算环境中运行脚本

2R如何与其他工具和语言进行交互?

CRAN里面有一些包提供了和matlabsplusSASexcel的交互接口,另外,还提供了与pythonjava的接口包(RpyRJava)。


原文发布时间为:2013-07-30


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
4月前
|
算法 数据挖掘
【数据挖掘】岭回归Ridge讲解及实战应用(超详细 附源码)
【数据挖掘】岭回归Ridge讲解及实战应用(超详细 附源码)
38 0
|
4月前
|
数据可视化 数据挖掘
【数据挖掘】多项式回归原理介绍及实战应用(超详细 附源码)
【数据挖掘】多项式回归原理介绍及实战应用(超详细 附源码)
61 1
|
4月前
|
算法 数据挖掘 Python
【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用(图文解释 超详细)
【数据挖掘】层次聚类DIANA、AGNES算法讲解及实战应用(图文解释 超详细)
107 0
|
6月前
|
API 开发者
Google Tag Manager (GTM) 和 Adobe AEPL 在 SAP Spartacus 中的应用
Google Tag Manager (GTM) 和 Adobe AEPL 在 SAP Spartacus 中的应用
65 0
|
2月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
93 0
|
4月前
|
算法 数据可视化 数据挖掘
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
【数据挖掘】密度聚类DBSCAN讲解及实战应用(图文解释 附源码)
144 1
|
4月前
|
数据挖掘
【数据挖掘】Lasso回归原理讲解及实战应用(超详细 附源码)
【数据挖掘】Lasso回归原理讲解及实战应用(超详细 附源码)
180 0
|
4月前
|
数据可视化 数据挖掘 Python
Python数据挖掘实用案例——自动售货机销售数据分析与应用(二)
Python数据挖掘实用案例——自动售货机销售数据分析与应用(二)
348 0
|
7月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
279 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
37 0

热门文章

最新文章