1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有从kafka读取数进rdd?

请教大家一个问题,spark stream连kafka,在web页面的stream标签,显示好多batch处于queued状态,这些batch是已经把数据从kafka读取进rdd,等待处理,还是还没有从kafka读取数进rdd?

web spark stream

在IntelliJ上运行的异常Spark sql代码,即java.lang.IllegalArgumentException:

在IntelliJ上运行的异常Spark sql代码,即java.lang.IllegalArgumentException:

java SQL spark

Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.<init>(Ljava/lang/String;II)V

为什么我使用 dropDuplicates()函数报错Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/St…

java 函数 spark BY string

两个时间戳相隔天数

两个时间戳相隔天数

spark

请教一下,我hive中数据大小为16g,通过importtsv生成了hfile 文件,导入到hbase中了,数据变成130多g,还有什么更好的办法吗

请教一下,我hive中数据大小为16g,通过importtsv生成了hfile 文件,导入到hbase中了,数据变成130多g,还有什么更好的办法吗

hbase spark Hive

jdbc 连接spark thrift server 如何获取日志

jdbc 连接spark thrift server 如何获取日志

日志 spark Server JDBC

Spark如何从一行中仅提取Json数据

Spark如何从一行中仅提取Json数据

日志 Json spark Server JDBC

org.apache.avro.SchemaParseException:未定义的名称

我的spark工作是从kafka读取并解码消息。我的spark工作在MAC 上的本地spark集群(https://archive.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-had…

java docker hadoop Apache 集群 OpenStack spark schema parse k8s

pyspark - 在json流数据中找到max和min usign createDataFrame

我有一组由Kafka流式传输的json消息,每个消息都描述一个网站用户。使用pyspark,我需要计算每个国家/地区每个流媒体窗口的用户数,并返回具有最大和最小用户数的国家/地区。 以下是流式json消息的示例: {"id":1,"fir…

SQL Json spark schema email parse 流数据

解析Apache Spark Scala中的数据org.apache.spark.SparkException:尝试使用textinputformat.record.delimiter时出现任务无序列化错误

输入文件: DATE 2018-11-16T06:3937Linux hortonworks 3.10.0-514.26.2.el7.x86_64 #1 SMP Fri Jun 30 05:26:04 UTC 2017 x86_64 x8…

linux hadoop Apache spark scala xml class type read pattern Mapreduce input

如何计算和获取Spark Dataframe中唯一ID的值总和?

我有以下Dataframe,我希望按ID汇总,并为每个唯一ID总和'value'列: import org.apache.spark.sql.functions._import spark.implicits._ // some data…

SQL Apache spark DataFrame 编程

控制目标parquet文件的数量

我有~250个文件夹。一天中的每个文件夹。每个文件夹包含24个拼花文件。我需要全部读取它们,在它们上运行一个函数,并在更改函数后编写它们。 在写作时,我这样做: df .repartition('date) .write .part…

函数 spark

更改DataType时应用日期格式

我正在为column数据框中的每个应用数据类型,如下所示 [StructField('name',StringType(),True), StructField(‘dob’,DateType(),True)]无论如何YYYY/MM/DD在…

spark 数据类型

如何将csv目录加载到hdfs作为parquet

我在linux上有一个包含数千个CSV文件的本地文件夹。 每个csv文件大约为1mb。 这些文件共享相同的列/格式,它们由文件名本身区分(即xxx_1.csv,xxx_2.csv,xxx_3,csv等) 现在,我想将目录加载到HDFS中,…

linux python hdfs spark csv

PYSPARK:使用另一个表中的两列之一加入表列

我的问题如下: Table 1ID1 ID2 1 2 3 4 Table 2C1 VALUE 1 London 4 Texas Table3 C3 VALUE 2 Paris 3 Ari…

spark 解决方案

无法使用Spark在Datastax上初始化图形

我正在尝试使用Spark初始化我的Datastax图,如下所示: val graphBuilder = spark.dseGraph("GRAPH_NAME")但我有以下例外: Exception in thread "main" jav…

java spark scala exception thread

使用PySpark计算每个窗口的用户数

我正在使用Kafka流式传输JSON文件,将每一行作为消息发送。其中一个关键是用户email。 然后我使用PySpark计算每个窗口的唯一用户数,使用他们的电子邮件来识别它们。命令 def print_users_count(count)…

Json spark Consumer email

Window.rowsBetween - 仅考虑满足特定条件的行(例如,不为null)

我有一个Spark DataFrame,其列包含不是每行的值,而是仅针对某些行(在某种程度上有规律地,例如,基于id的每5到10行)。 现在,我想将一个窗口函数应用于包含值的行,这些行包含前两个行,这两行也包含值(所以基本上假装所有包含空…

函数 SQL spark DataFrame Other

(Linux AMI)EMR Cluster版本的`free`命令

free`命令(Linux AMI)EMR Cluster版本(Linux AMI)EMR Cluster版本的free命令当我从AWS Linux AMI启动pyspark时,我正试图分配内存来激发 - 也就是说,当我调用pyspark…

linux hadoop cluster 集群 spark API EMR

上一页 1 ... 4 5 6 7 8 ... 28 下一页
28
GO