1. 云栖社区>
  2. 全部标签>
  3. #MaxCompute#
MaxCompute

#MaxCompute#

已有18人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【Spark Summit East 2017】将HPC算法引入大数据平台

本讲义出自Nikolay Malitsky在Spark Summit East 2017上的演讲,主要介绍了使用轻量级源工具集开发的,基于MPI的Spark平台的扩展,扩展的背景和原理正如题目所示:将HPC算法引入大数据平台。

云栖社区 大数据 算法 HTTPS odps spark aliyun MPI 大数据分析 MaxCompute

【Spark Summit East 2017】Opaque:强安全性的数据分析平台

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,随着企业转向以云计算为基础进行数据分析,云安全漏洞的风险构成了严重的威胁。对数据进行加密是数据传输中的第一步,然而却必须在内存中进行解密,这就有可能暴露在被黑客攻击过的操作系统或者虚拟机中。

云栖社区 大数据 加密 HTTPS 云安全 数据分析 操作系统 spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】ModelDB:用于管理机器学习模型的系统

本讲义出自Manasi Vartak在Spark Summit East 2017上的演讲,主要介绍了一个新颖的用于管理机器学习模型的端到端系统。通过使用客户端库,ModelDB可以在原生环境中自动跟踪和ML版本模型,ModelDB可以捕获构建在不同语言环境中的模型和数据管道,结构化的元数据和模型的表示方法提供了进行复杂查询的工具。

云栖社区 大数据 HTTPS spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系。

云栖社区 python 大数据 HTTPS odps 数据分析 spark aliyun API 大数据分析 MaxCompute

【Spark Summit East 2017】迈向实时:为个性化创建不断更新频率的数据集

本讲义出自Shriya Arora在Spark Summit East 2017上的演讲,主要介绍了NETFLIX使用Spark处理个性化数据集空间的经验,并分享了使用流处理大规模的个性化数据集的案例,对于从批处理到流计算的转型意识以及这一过程中必须要面对的技术挑战。

云栖社区 大数据 HTTPS odps spark aliyun 流计算 大数据分析 MaxCompute

【Spark Summit East 2017】基于Spark的行为分析研究

本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验。在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算。

云栖社区 大数据 HTTPS odps spark aliyun 并行计算 高性能 大数据分析 MaxCompute

【Spark Summit East 2017】Spark,类型函数式编程的引诱者

本讲义出自Jeff Smith与Rohan Aletty在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark作为学习工具,在函数式编程等领域构建技能栈,介绍了从基础工作Scala和函数式编程的概念到完全实现机器学习管道,并讲解了Spark以及MLlib。

云栖社区 大数据 函数 HTTPS odps spark scala aliyun MLlib 编程 大数据分析 MaxCompute

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

本讲义出自Zhong Wang在Spark Summit East 2017上的演讲,主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战,实验表明,使用Spark进行元基因组数据分析的速度、可扩展性、健壮性都非常不错,并且最重要的一点十分容易编程实现,对于元基因组分析来说,Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案。

云栖社区 大数据 HTTPS 可扩展性 数据分析 spark aliyun 解决方案 编程 大数据分析 MaxCompute

【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。

云栖社区 python 分布式 大数据 监控 HTTPS 容器 测试 spark scala aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】使用Spark RDD构建用户应用

本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

云栖社区 大数据 HTTPS spark aliyun Hive 大数据分析 MaxCompute

【Spark Summit East 2017】从解决Spark陷阱中学到的问题解决清单

本讲义出自Justin Pihony与Stavros Kontopoulos在Spark Summit East 2017上的演讲,因为Spark,大数据应用程序的编写并不简单,讲义中分享了Lightbend帮助客户在Spark中发现很多的隐藏陷阱,介绍了应该如何洞察这些陷阱和如何避免出现相同的错误。

云栖社区 大数据 HTTPS odps spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

本讲义出自Sky Yin在Spark Summit East 2017上的演讲,数据科学家每天都会编写SQL查询语句,通常情况下,他们知道如何编写正确的查询语句,但不知道为什么他们的查询执行却是缓慢的,所以需要对于SQL查询进行优化,本讲义将介绍如何将一个大表从Redshift迁移到Spark上。

云栖社区 大数据 HTTPS SQL odps spark aliyun Redshift 大数据分析 MaxCompute

【Spark Summit East 2017】打击网络犯罪:联合特遣部队的实时数据和人工分析

本讲义出自William Callaghan在Spark Summit East 2017上的演讲,网络犯罪是一个大行业。Gartner报道全球安全支出达到了8000万美元,中小型企业占超过一半的攻击目标企业。

云栖社区 大数据 安全 HTTPS spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索。

云栖社区 大数据 算法 hbase HTTPS Apache 集群 odps spark aliyun API 分布式计算 大数据分析 MaxCompute

【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用

本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲,主要分享了开发一个非凡的流应用不得不考虑的几个问题。

云栖社区 大数据 监控 HTTPS spark aliyun 大数据分析 MaxCompute 流数据

【Spark Summit East 2017】Debugging PySpark

本讲义出自Holden Karau在Spark Summit East 2017上的演讲,主要介绍了如何对于Spark程序进行调试Debug,并介绍了登录时的对于Spark所支持的各种语言的不同选项以及常见的错误和如何对这些错误进行检测。

云栖社区 大数据 HTTPS odps spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】使用Spark横向扩展关系型数据库

本讲义出自Cody Koeninger在Spark Summit East 2017上的演讲,扩展了并不一定意味着放弃事务和高效的连接!对于关系型数据库进行横向扩展可以帮助Spark覆盖存储流媒体或批处理计算的功能的实现。

云栖社区 大数据 HTTPS 数据库 odps spark aliyun 存储 大数据分析 MaxCompute

【Spark Summit East 2017】Bulletproof Jobs:大规模Spark处理模式

本讲义出自Sim Simeonov在Spark Summit East 2017上的演讲,主要介绍了Spark工作中的三个防弹原则以及他们的系统原则和设计模式。这三个原则分别是:幂等性、行级结构化日志以及不变的查询结构。

云栖社区 大数据 HTTPS 日志 odps spark aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】使用Spark进行时间序列分析

本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库——spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例。

云栖社区 python 大数据 java HTTPS spark scala aliyun 大数据分析 MaxCompute

【Spark Summit East 2017】教会Spark集群弹性管理Worker

本讲义出自Erik Erlandson与Trevor McKay 在Spark Summit East 2017上的演讲,主要介绍了将Openshift Origin作为实验室,实现了Spark能够创建自己的集群并且动态管理API的平台,还分享了如何充分利用Kubernetes生态系统中的API启用应用程序进行弹性部署。

云栖社区 大数据 HTTPS 集群 odps spark aliyun API 大数据分析 MaxCompute

63
GO