【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

简介: 本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。


8fa4d786b7d8c2ee2c86a6dcdc744e251d8fd4cc

e75e4d55b2a6bf6eb01db81b8077d5ae9fc3591d

c3fbc8d916df89c224e4b6e1390b7604f729d102

0f0def8e2eeecfccc48b783513b663a637b0a01a

bde8afa5f62762aabf2bc21f5313931c9b4e0d84

eac8e679dd81752c05b2fc8e7b985ff84f715e80

6dd8651b0f1367770bf2d5b41311968f7b8595fa

5d2f20a30be241543c863e3bcca1f168fc4097a2

e4b6f9877ca6ea027c16c826e94419c2e1948290

cabbe3c97ba87492c5d91c6978ffda31086995cd

6aa21ff394598f8139f831e783988f0787af118d

f7d7a6c345b8db08d6fd8841a118acaa38c64d52

5bef7aa17a4f7e60c761898b43c0cf96f051b3a3

58477f8dfb2e14b385ecfc54cc68380935cfaefe

0c5cd071b7f733b85c4207777dae983eb5b50793

ec910ad80c7ddbe6e2c65e06f06831bad92be3b5

44b2266cc1ea1bc04f20300753d2a91868003a6b

8f9eb0567ee73c3b906ded973b4942ddd3185a89

0986737cab539cd47258a642f30f00f589686e4c

3e0fc416bc9c1dd76946a677ce421061cce68f09

相关文章
|
11月前
|
机器学习/深度学习 分布式计算 自然语言处理
Spark机器学习管道 - Estimator
Spark机器学习管道 - Estimator
|
9月前
|
机器学习/深度学习 数据采集 存储
初探 Spark ML 第一部分
初探 Spark ML 第一部分
|
11月前
|
机器学习/深度学习 数据采集 分布式计算
Spark机器学习管道 - Pipeline
Spark机器学习管道 - Pipeline
|
11月前
|
机器学习/深度学习 存储 分布式计算
Spark机器学习管道 - Transformer
Spark机器学习管道 - Transformer
|
机器学习/深度学习 分布式计算 Spark
|
机器学习/深度学习 分布式计算 Apache
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
基于Apache* Spark* 的大规模分布式机器学习实践
99 0
《基于Apache Spark 的大规模分布式机器学习实践》电子版地址
|
机器学习/深度学习 分布式计算 算法
spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer
spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer
188 0
spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer
|
机器学习/深度学习 SQL 数据采集
Spark 中 ML 和 MLlib 的特点和区别
Spark 中 ML 和 MLlib 的特点和区别
358 0
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料