1. 云栖社区>
  2. 全部标签>
  3. #scala#
scala

#scala#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

在初始化spark上下文后,在运行时更改pyspark的hadoop配置中的aws凭据

我已经在Stack Overflow上查看了相关问题的解决方案,但似乎这个问题相当独特。对于上下文,由于公司程序的原因,我需要每小时刷新一次AWS安全凭证,而我正在努力将新刷新的安全凭证添加到spark中。在第一个小时内一切正常(我可以从…

java hadoop Apache 配置 request spark scala EMR

Spark:从2.1.0升级到2.2.1时,Dataframe动作确实很慢

我刚刚将spark 2.1.0升级为spark 2.2.1。有没有人看到极端缓慢的行为dataframe.filter(…).collect()?特别是以前的collect操作filter。dataframe.collect似乎运行正常。…

SQL Apache spark scala DataFrame class list

如何使用spark将kafka主题中的writeStream数据写入hdfs?

我一直试图让这段代码工作几个小时: val spark = SparkSession.builder() .appName("Consumer") .getOrCreate() spark.readStream .format("kaf…

hdfs SQL Apache spark scala class bootstrap

Scala Named方法参数无法解析符?

我试图为该方法使用命名参数,因为它有很多参数。我正在使用Java-client for Kubernetes API。但是,我得到Cannot resolve symbol编译错误。我在Intellij IDEA中编写代码,可能是一些插件…

scala API 插件 Group IDEA k8s

通过Spark / Scala使用webHDFS

如何使用spark访问webHDFS。 问题陈述:“需要将文件从本地系统获取到HDFS,然后在Spark中处理它。想跳过SFTP。”

hdfs spark scala

如何使用两个日期过滤数据框?

我有一个场景,其中dataframe具有data_date,如下所示 root |-- data_date: timestamp (nullable = true) +-------------------+ | d…

runtime spark scala DataFrame class timestamp

更改Spark中的Metastore URI

在我的工作中,有不同的环境(开发,预生产和生产),在每个环境中,我们在其Hive Metastore中都有某些表。我的用户有权通过直接访问和查询所有这些Metastore,但我想使用sqlContext(或HiveContext)在spa…

java hadoop SQL Apache spark scala Hive class

如何在Spark Scala中使用root元素读取多行json?

这是一个Sample JSON文件。我有root标签然后如何将JSON数据读入Dataframe并在控制台中打印。 { "Crimes": [ { "ID": 11034701, "Case Num…

Json code 控制台 spark scala DataFrame type

AttributeError:'NoneType'对象没有属性'_jvm - PySpark UDF

我有杂志订阅的数据及其创建时间,以及包含与给定用户关联的所有订阅到期日期数组的列: user_id created_date expiration_dates_for_user 202394 …

python java jvm SQL Apache spark scala UDF file

如何将一个spark行(StructType)强制转换为scala案例类

我试图在scala中编写一个udf函数,并在我的pyspark工作中使用它。我的数据帧架构是 root|-- vehicle_id: string|-- driver_id: string|-- StartDtLocal: timesta…

架构 函数 spark scala string UDF timestamp

如何在Spark Scala中读取嵌套JSON?

这是我的嵌套JSON文件。 {"dc_id": "dc-101","source": { "sensor-igauge": { "id": 10, "ip": "68.28.91.22", "description": "Se…

Json spark scala DataFrame IP source 数组

如何使用条件查询Spark MongoDB-Connector?

最近我尝试使用官方文档中的 MongoDB-Connector,JavaMongoRDD rdd = MongoSpark.load(jsc);但演示将加载我的集合中的所有数据,我只想在我的java或scala代码中运行此命令 db.…

java spark DB scala JDBC regex

通过`in-code variable inspection`调试scala中的过滤器操作[重复]

def main(args:Array[String]){ Logger.getLogger("org").setLevel(Level.ERROR) val sc = new SparkContext("local[*]","Word…

logger spark scala string input

Spark检查数据帧数组中的任何单词是否包含在另一个列表中?

我已经读了一个json文件并在spark中转换为dataframe。它具有包含值列表的列技能。现在我想过滤数据框,使列技能具有另一个列表的任何值。 例如: skill= ["A", "B", "C", "D"] and list=["A"…

Json spark scala DataFrame list 数组

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器

我有一个名为root的列,需要根据根列的不同值过滤数据帧。 假设我在root中有一个值是父,子或子子,我想通过变量动态应用这些过滤器。 val x = ("parent,child,sub-child").split(",")x.map(…

spark scala DataFrame

Spark scala让类找不到scala.Any

val schema = df.schemaval x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.get(idx)), 1l) })这会产…

java spark scala schema

dataframe spark scala取每组的(MAX-MIN)

我有一个来自处理部分的数据框,如下所示: +---------+------+-----------+ Time group value 28371 94 906 28372 94 864 28373 94 682 …

spark scala DataFrame Group

如何使用scala将特定函数转换为apache spark中的udf函数?[重复]

我在apache spark中有一个数据框,使用Scala创建。此数据框有两列Array [String]类型。我写了一个简单的函数,它接受这两列并返回单词的交集(返回常用单词的数量:Int)。我的数据框的一个例子如下所示。 数据框示例及…

函数 Apache spark scala string UDF

Spark,Scala:如何从Rdd或dataframe中删除空行?

我在scala上使用spark。我在Rdd中有一些空行。我需要将它们从Rdd中删除。 我试过它: val valfilteredRow = rddRow.filter(row => row!=null && row.…

spark scala DataFrame

Scala,Spark-shell,Groupby失败

我有Spark版本2.4.0和scala版本2.11.12。我可以使用以下代码成功加载数据帧。 val df = spark.read.format("csv").option("header","true").option("delim…

SQL Apache spark scala DataFrame read csv

9
GO