1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. D>
  5. 大数据spark 项目

当前主题:大数据spark 项目

大数据spark 项目相关的博客

查看更多 写博客

想成为云计算大数据Spark高手,看这里!

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处

阅读全文

助人就是助己:IBM宣布大规模资助开源大数据项目Spark

本周一,IBM宣布将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。 Hadoop技术出自Google、Yahoo这些互联网公司,主要是为了对规模庞大的各类数据进行处理和分析。不过近年来随

阅读全文

常见的七种Hadoop和Spark项目案例

大数据中比较火爆的Hadoop、Spark和Storm,最常见的七种项目你们是否已经了解到位了呢,下面一起了解一下吧 一、数据整合 称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实

阅读全文

7种最常见的Hadoop和Spark项目

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每

阅读全文

7种最常见的Hadoop和Spark项目

有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到

阅读全文

常见的七种Hadoop和Spark项目案例

如果你的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,

阅读全文

Spark项目故障总结

1.OOM问题,reduce端的缓冲大小,太大的话,吃撑了,一下过来很多数据,容易OOM,默认48,可以改小哦。spark.reducer.maxSizeInFlight,48---》24 2.JVM-GC导致的shuffle文件拉取失败,shuffle fi

阅读全文

七种最常见的Hadoop和Spark项目,你见过几种?

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,

阅读全文

大数据spark 项目相关问答

查看更多 提问题

hadoop与spark一起使用有做过什么项目吗?

具体做过什么企业实战案例的?

阅读全文

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。 发现了个问题,kafka一共30个分区,会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢了整个处理时

阅读全文

在Apache spark中跨执行程序共享数据

我的SPARK项目(用Java编写)需要跨执行程序访问(SELECT查询结果)不同的表。 这个问题的一个解决方案是: 我创建了一个tempView 选择所需的列 使用forEach转换DataFrame为Map。 将该映射作为跨执行器的广播变

阅读全文

在Spark中调用dataframe.collect时,会将不寻常的数据量提取到驱动程序中

在我的spark代码中,我从Dataframe中收集驱动程序上的一个小对象。我在控制台上看到以下错误消息。我在我的项目中调试dataframe.take(1)。 Total size of serialized results of 13 tasks (

阅读全文

Scala Spark中两个稀疏向量的余弦相似性

我有一个包含两列的数据框,其中每一行都有一个稀疏向量。我试图找到一种合适的方法来计算每行中两个向量的余弦相似度(或只是点积)。 但是,我还没有找到任何库或教程来为稀疏矢量做这件事。 我发现的唯一方法如下: 创建ak X n矩阵,其中n个项目被

阅读全文

让我们一起来聊聊 Netty。

众所周知,构建高性能的现代互联网架构,我们一定离不开分布式系统,这些系统必定是反应式的。反应式的系统是一个比较新的概念,即消息驱动、弹性、极具适应性并且即时响应。构建这样的系统,定然离不开优秀的网络通信框架,其中 Netty 就是一款及其优秀的网络通信框架。

阅读全文