1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

PySpark线性回归数据集中具有比数据点更多的特征

我正在使用PySpark开发一个简单的文本挖掘应用程序。目标是将特定文档分类为垃圾邮件或非垃圾邮件。我有大约1000个文件来训练模型(n)。 清理数据(正交误差校正,词干等)后,我使用IDF提取特征向量。默认情况下,此向量化方法的要素维度…

算法 spark pipeline 数据应用

sbt:找到资源目录下文件/文件夹的正确路径

我有一个简单的项目结构: WordCount | | ------------ project | ---------------- | --- assembly.sbt | | ------------ resources | ----…

Apache path 控制台 spark scala string file

Spark结构化流媒体:等待终止,如何写流

从Kafka主题读取偏移并将其写入aerospike数据库。目前我正在准备这个工作生产准备和实施SparkListener。在浏览文档的过程中,我偶然发现了这个例子: StreamingQuery query = wordCounts.w…

数据库 spark 流式计算

路径参考问题

ackage com.example.lambda1 import spark.Spark.get fun main(args: Array) { println("Hello, World") get( path: "/hello") …

windows openjdk spark Server utf-8

如何用整数替换Null条件Pyspark Dataframe

我想(在pyspark / spark内)。具体来说,数据框如下所示: ID response_variable id_nameid_1 NULL "randomidDKHFD"id_2 …

spark DataFrame

pyspark将行转换为带有空值的json

目标: 对于具有架构的数据框 id:stringCold:stringMedium:stringHot:stringIsNull:stringannual_sales_c:stringaverage_check_c:stringcredi…

架构 Json spark string

Spark Streaming Kafka Stream批处理执行

我目前正在实现一个从Kafka主题流式传输数据的应用程序。 是否常常使用应用程序仅运行一次批处理,例如,当天结束,收集主题中的所有数据,进行一些聚合和转换等等? 这意味着在使用spark-submit启动应用程序后,所有这些内容将在一个批…

spark stream 流数据

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException:非法模式组件:XXX

我想在Spark 2.2.2Java和Java中加载JSON数据。 Dataset df = spark .read() .json(filePath); 但是我收到错误: java.lan…

java Json Apache spark read

在sparksql中以正确格式将字符串数据转换为十进制时出现问题

我在将字符串转换为十进制(15,7)时遇到spark sql中的问题。 输入数据是: '0.00''28.12''-39.02''28.00'我已经尝试将其转换为浮点数然后转换为十进制但得到了意想不到的结果。 sqlContext.sql…

SQL spark

Apache Spark JSON读取错误 - java.lang.IllegalArgumentException:非法模式组件:XXX

maquillaje de novia en Shibuy","price":"80","genderProduct":"F","socialUsage":"1","ageUsage":"2,3","dailyDeal":"true","…

java Json Apache spark

spark streaming和kafka集成的时候,auto commit offset设置位false,存储这个offset,大家是怎么做的啊?

1、一个rdd处理完去更新一下吗?还是rdd里的一个msg处理完就更新?那会不会有问题啊?比如rdd拿了n个msg,处理到m(n2、拿出来处理了,然后插到mysql里,失败了,你让我把rdd中前面的m-1个都从mysql里删除掉?你失败了那…

云栖社区 数据存储与数据库 spark Commit 存储

spark streaming可以处理数据延迟的问题吗

spark 2.x版本后,推荐 structured streaming

云栖社区 数据存储与数据库 spark

Spark+Phoenix跟Spark直接读HFile这两个分别适用于哪个场景?

Spark+Phoenix跟Spark直接读HFile这两个分别适用于哪个场景?

大数据 spark

如何使用flink和spark,以及spark只是为了转换?

"假设mongodb中有一个“商品”集合,如下所示: {name:""A"",attr:[""location"":""us""],""eventTime"":""2018-01-01""}{name:""B"",attr:[""bran…

MongoDB spark Hive flink

Apache flink是否有与Spark HiveContext相同的api?

我已经阅读了有关Apache Flink 1.6的文档和参考资料,并希望找到一些类似Spark HiveContext的api来从Hive读取数据,但只能找到HDFS api和JDBC api。是否有与Spark HiveContext相同…

hdfs Apache spark API JDBC Hive flink

在Apache Flink中将自定义类写入HDFS

"在开始使用Spark之后,我试图熟悉Flink的语义。我想DataSet[IndexNode]在HDFS中写一个持久存储,以便以后可以通过另一个进程读取它。Spark有一个ObjectFile提供这种功能的简单API,但我在Flink中…

hdfs Apache spark 解决方案 API class 存储 flink

[@徐雷frank][¥20]spark开发,Java与Scala如何选择

徐大神,这两种语言怎么选择

编程语言 java spark scala

spark streaming on yarn形式提交应用到yarn,日志会一直不停的打runnning

有没有提交完以后,打出来一些汇总日志,就直接关闭的方法flink on yarn有一个-yd

云栖社区 数据存储与数据库 日志 spark

spark读取parquet 找不到 org/apache/hadoop/fs/FSDataInputStream

在spark-env里加上了export SPARK_DIST_CLASSPATH=$(hadoop classpath)也没用 有人遇到过吗

云栖社区 数据存储与数据库 hadoop Apache spark

28
GO