1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

钉钉群直播Spark + AI 北美峰会参会分享

Spark + AI 北美峰会 2019 盛况依然,这两天正如火如荼。大会的主题是 Build,Unify,Scale,对此如何理解?砖厂这次有哪些重磅消息和重要发布,并作如何解读?Spark 过去几年发展的基调和线索是什么,从这次峰会上又如何看出 Spark 在未来几年的发展端倪?阿里巴巴计算平台.

系统软件 编程语言 深度学习 大数据 安全 钉钉 spark EMR

【译】Spark-Alchemy:HyperLogLog的使用介绍

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

大数据 算法 性能 spark 数据结构 存储

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

云栖社区 数据存储与数据库 系统研发与运维 大数据 Cache spark EMR 多维分析

【译】Spark NLP使用入门

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp-library-enterprise.html) 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

python 深度学习 大数据 性能 集群 spark

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

在Spark中,Join通常是代价比较大,尤其是shuffle join。Relational Cache将反范式化表(即关联后的大表)保存为relational cache,便可以使用cache重写执行计划,提高查询效率。

Cache spark EMR 多维分析 物化视图

Spark内置图像数据源初探 | 6月27号云栖夜读

今天的首篇文章,讲述了:作者:林武康,花名知瑕, 阿里巴巴计算平台事业部EMR团队的高级开发工程师,Apache HUE Contributor, 参与了多个开源项目的研发工作,对于分布式系统设计应用有较丰富的经验,目前主要专注于EMR数据开发相关的产品的研发工作。

数据仓库 spark aliyun 分布式系统

使用Spark SQL进行流式机器学习计算(上)

什么是流式机器学习, 机器学习模型获取途径, 系统演示

云栖社区 编程语言 数据存储与数据库 系统研发与运维 网络与数据通信 linux 大数据 算法 SQL 测试 spark aliyun MLlib string UDF

使用Spark SQL进行流式机器学习计算(上)

今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理

大数据 算法 分布式系统与计算 SQL 测试 spark 流式计算 MLlib string sparkstreaming

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。

云栖社区 编程语言 移动开发与客户端 大数据 Apache Image spark DataFrame string 存储 安全问道

X-Pack Spark对接阿里云日志服务LogHub

概述 X-Pack Spark分析引擎是基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源,例如:云HBase数据库、MongoDB、Phoenix等,同时也支持对接阿里云日志服务LogHub。

日志 日志服务 数据库 同步 spark aliyun string 数据同步 html varchar loghub Streaming 数仓 离线 x-pack

如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析

概述 X-Pack Spark目前是通过Yarn管理资源,在提交Spark 任务后我们经常需要知道任务的运行状况,例如在哪里看日志、怎么查看每个Executor的运行状态、每个task的运行状态,性能瓶颈点在哪里等信息。

性能 日志 集群 spark yarn Streaming x-pack stage

欢迎加盟云智能数据库BigData NoSQL团队

数据库事业部承载着阿里巴巴及阿里云的数据库服务,为超过数万家中国企业提供专业的数据库服务。我们提供在线事务处理、缓存文档服务、BigData NoSQL服务 、在线分析处理的全栈数据库产品。本团队提供基于Apache HBasePhoenixSparkCassandraSolrES等,结合自研技术,打造存储、检索、计算的一站式的BigData NoSQL自主可控的服务,满足客户的数据驱动业务的诉求。

分布式 大数据 NOSQL hbase Apache 数据库 spark aliyun 分布式计算 Cassandra 分布式存储 存储 数据存储 在线分析

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客(apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners),这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

云栖社区 性能 Apache spark Cassandra 电信 Blog 数据存储 流数据

Spark Streaming 框架在 5G 中的应用

在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。

nginx 编程语言 性能 Apache spark Cassandra 电信 Blog 数据存储 安全问道 流数据

云Kafka搭配云HBase X-Pack构建一体化数据处理平台

云HBase X-Pack是基于Apache HBase、Phoenix、Spark深度扩展,融合Solr检索等技术,支持海量数据的一站式存储、检索与分析。融合云kafka+云HBase X-Pack能够构建一体化的数据处理平台,支持风控、推荐、检索、画像、社交、物联网、时空、表单查询、离线数仓等场景,助力企业数据智能化。

大数据 架构 算法 hbase 融合云 数据处理 消息中间件 logstash spark aliyun 物联网 html 存储 kafka 海量数据

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

本文将为大家介绍 Apache Flink 在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入 Apache Flink 的背景与挑战,以及平台构建化流程。

大数据 SQL 日志 Apache 数据处理 数据流 配置 spark 流计算 流处理 海量数据 flink 实时计算 应用案例

DataSimba系列之流式计算

市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低。 因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理。

分布式 大数据 架构 监控 hbase 数据库 spark 流式计算 离线计算 数据采集 数据存储 流计算 海量数据 多维分析 数据中台

Spark Streaming的优化之路—从Receiver到Direct模式

Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的流式数据处理。个推开发者服务—消息推送“应景推送”应用了Spark Streaming技术,在应用Spark Streaming做实时处理kafka数据时,采用Direct代替Receiver模式的手段,实现了资源优化和程序稳定性提升。

大数据 数据处理 spark Core

EMR Spark Relational Cache的执行计划重写

作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。

云栖社区 编程语言 系统研发与运维 移动开发与客户端 Cache spark EMR aggregate

上一页 1 ... 4 5 6 7 8 ... 146 下一页
146
GO