【Spark Summit East 2017】Kerberizing Spark

简介: 本讲义出自Abel Rincon与Jorge Lopez-Malla在Spark Summit East 2017上的演讲,主要介绍了Spark作为主流的大规模并行处理框架,HDFS作为最受欢迎的大数据存储技术,两者之间的结合通常是大数据的常见用例,本讲义分享了如何使得两种技术同处于安全的环境中,另外随着BI技术适应大数据环境,要求几个用户能够同时与集群进行交互,如何保证环境的安全也是一个挑战。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Abel Rincon与Jorge Lopez-Malla在Spark Summit East 2017上的演讲,主要介绍了Spark作为主流的大规模并行处理框架,HDFS作为最受欢迎的大数据存储技术,两者之间的结合通常是大数据的常见用例,本讲义分享了如何使得两种技术同处于安全的环境中,另外随着BI技术适应大数据环境,要求几个用户能够同时与集群进行交互,如何保证环境的安全也是一个挑战。


99065f2ee59f1e84aeadc71d8efa438eaded7480

88f8b88d1876d0d50a5d6b41350afe57650cfbf2

cbbd0008e987969e7b720bff3467082a013f46a9

7854b4d8389ecbbbf774d5cb7cde941f8cd1e1d9

f940af51b323f3cab4bff2e44c46ea2071ab43a0

ca0277e45e1efeeac2ba063bcab4c4d2450173e5

dc1d846ca464fcbc4a9557148781641659ac661b

bf8df1a6a2e03694662e803f307c21f7aaebb1a7

40246b923c92be858156b6d064831542c8daa162

4674c77b9c2aa8e6cb6e063e0efb2b1057ece542

3209fe613426b0ee6cb4b22931b398cd81630653

916ef4931c895debece97b93310491a85e45c1e7

28a170e96e0646b4f91b31557d5c960e639f4221

37e1fe2345e9948b87356cd6092c699f72f55b36

46824f26f4ca8d7066a11e1a015625c695a92827

92862e3cbafe3c7a8d5f6fd8fdcefd19e41460b6

e8bcb94ae9bdf834702390b8f2fb98c846427d37

c0f80e10521643309ce799c49ce3695829608fe5

565cf1a3ad7637966e2b219228c8850348e96179

6cfbfe5b85078561c3431daee292232b358c6c84

c6636e0ca6c52ba33288343662f92898c3ab6be1

c25e72c2d5c10e2fc3c08aeec8463026e3068855

aac5330153d89207cca238f59ec978de2ab6867f

68b38ff077e9ec76348631f502a7a0c8bc29feaf

e15452097c513abcc2d5d4ba3e189338c6153c90

fa372bd83893b21f9bee35b46967b24068ec5c0e

61ce1d22c3a924aef5d63384b9d1a2ee08f47d96

8dd48bd09d7d33d1b9cc6963618dae7cc3f8ccbc

6e1cebc6537aa8ae4e3d27ab3def183161f56872

4aaef5a9ca43160a91927531a8e6f0fab34bb0c4

ac81faa8f763a6d31d762317833ef05e53eff11b

45601f4c3e58306e6d5b7690c074af04aae1aa57

cfad6383d5c8e6b05c885d3971f5f1cdcf1ed060

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 算法 大数据
【Spark Summit East 2017】Spark自动调谐
本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值。
1868 0
|
大数据 Apache 分布式计算
【Spark Summit East 2017】Spark + Flashblade
本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台、制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库和利用Apache Spark的功能满足分析需求的过程中吸取的经验教训。
2049 0
|
分布式计算 算法 大数据
【Spark Summit East 2017】Cornami提升Spark性能与速度
本讲义出自Paul Master在Spark Summit East 2017上的演讲,主要介绍了CORNAMI公司的TruStream技术,一个以高密度处理器核心计算内存结构的新架构。演讲中介绍了如何将Spark集成到TruStream计算结构中来对于一般的Spark任务提供更高性能的计算处理能力,并介绍了目前在多服务器集群上构建的应用上如何使用TruStream与Spark提高算法速度,增加功能并且降低成本以及延迟。
2137 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Spark化数据引擎
本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。
1997 0
|
数据采集 分布式计算 大数据
【Spark Summit East 2017】Sparkler:Spark上的爬虫
本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。
2842 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Debugging PySpark
本讲义出自Holden Karau在Spark Summit East 2017上的演讲,主要介绍了如何对于Spark程序进行调试Debug,并介绍了登录时的对于Spark所支持的各种语言的不同选项以及常见的错误和如何对这些错误进行检测。
1551 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Drizzle——Spark的低延迟执行
本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,主要介绍了Spark的低延迟执行引擎——Drizzle,其设计目的在于对流进行处理以及进行迭代工作。
2385 0
|
分布式计算 物联网 Spark
【Spark Summit EU 2016】Spark数据感知
本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃,为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。
1762 0
|
分布式计算 大数据 Java
【Spark Summit East 2017】使用Spark进行时间序列分析
本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库——spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例。
9014 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Spark与在线分析
本讲义出自Shubham Chopra在Spark Summit East 2017上的演讲,主要介绍了Spark设计初衷是作为批处理分析系统,通过缓存RDD对于迭代处理相同数据的任务进行了加速,这种模式也适用于在线分析,本次演讲试图定义失效能够导致大规模命中在线查询性能和可能的解决方案的特殊区域。
1824 0