1. 云栖社区>
  2. 全部标签>
  3. #DataFrame#
DataFrame

#DataFrame#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

计算`Spark Dataframe的连续行上的编辑距离

我有一个数据框如下: import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.Columnimport org.apache.spark.sql.…

函数 SQL Apache spark DataFrame 数组

如何将Spark Dataframe列的每个值作为字符串传递给python UDF?

我正在尝试GPG加密spark数据帧列 FName df = spark.createDataFrame([('Andy', 'NY'), ('Bob', 'PA'), ('Cindy', 'DC')], ("FName", "City"…

python 加密 spark DataFrame UDF

如何使用Apache Spark Dataframe编写IN和NOT IN

我在SQL中有以下2个SQL查询示例: a) update DBTABLE1 set col1 = 'Yes' where ID IN ( '100' ) and City = any(select City from DBTable2 …

SQL Apache spark DataFrame update

是否合并(1)写入前的数据帧对性能有任何影响?

在我将数据帧写入hdfs之前,coalesce(1)要让它只写一个文件,所以在复制东西时很容易手动处理东西,从hdfs获取,... 我会像这样编写输出。 outputData.coalesce(1).write.parquet(outpu…

hdfs 性能 SQL Apache spark DataFrame

Apache Spark ML Pipeline:过滤数据集中的空行

在我的Spark ML Pipeline(Spark 2.3.0)中我使用RegexTokenizer如下: val regexTokenizer = new RegexTokenizer() .setInputCol("text")…

Apache spark DataFrame pipeline 数组

可以在飞行中构建spark代码并执行吗?

我正在尝试使用数据库CSV READER创建一个通用函数来读取csv文件。但是该选项不是强制性的,它可以根据我的输入json配置文件而有所不同。 例1: "ReaderOption":{ "delimite…

函数 Json 数据库 配置 spark DataFrame string schema read csv

每个用户的行之间的时间戳差异 - Pyspark Dataframe

我有一个具有以下结构的CSV文件 USER_ID location timestamp 1 1001 19:11:39 5-2-2010 1 …

python spark DataFrame timestamp csv

spark在满足条件的列中获得最小值

我在spark中有一个DataFrame,如下所示: id | flag 0 | true 1 | true 2 | false 3 | true 4 | true 5 | true 6 | false 7 | false 8…

spark DataFrame

Spark SQL - createDataFrame错误的struct schema

尝试使用Spark SQL创建DataFrame时,通过传递一个行列表,如下所示: some_data = [{'some-column': [{'timestamp': 1353534535353, 'strVal': 'some-st…

python 架构 SQL spark DataFrame string schema timestamp

在Spark中调用dataframe.collect时,会将不寻常的数据量提取到驱动程序中

在我的spark代码中,我从Dataframe中收集驱动程序上的一个小对象。我在控制台上看到以下错误消息。我在我的项目中调试dataframe.take(1)。 Total size of serialized results of 13…

spark DataFrame Driver

Spark DataFrame处理损坏的记录

在spark dataFrame中,如何处理损坏的记录?实际上,我正在寻找损坏的记录应该持久到另一个文件供以后审查。模式 - DROPMALFORMED选项将从数据集中删除损坏的记录。 val data = sparkSession.re…

Json spark DataFrame file read

计算dataframe列中的剩余金额

我有一个“容量”数据帧: scala> sql("create table capacity (id String, capacity Int)");scala> sql("insert into capacity value…

SQL spark scala DataFrame BY string Create

PySpark Dataframe根据函数返回值创建新列

我有一个数据帧,我想根据函数返回的值添加一个新列。此函数的参数是来自同一数据帧的四列。 这是我的数据框(这四个列有更多列) lat1 lng1 lat2 lng2 -32.92 151.80 -32.89 151.71 | -…

函数 spark DataFrame

如何将数据集拆分为两个具有唯一和重复行的数据集?

我想在Spark scala Dataframe中获取重复记录。例如,我想根据3列(例如“id”,“name”,“age”)获取重复值。条件部分包含任何列数(动态输入)。基于列值,我想采取重复记录。 以下代码我试过了。我试过的只有一个属性…

RAM spark DataFrame Gmail input

如何读取CSV文件,然后将其另存为Spark Scala中的JSON?

我正在尝试读取一个包含大约700万行和22列的CSV文件。 如何在Spark Dataframe中读取CSV后将其另存为JSON文件?

Json spark scala DataFrame csv

将List [Map <String,String>]转换为spark数据帧

我想将List [Map]转换为spark数据帧,Map的键是sname,Map的键是DataFrame的列

spark DataFrame list

没有规定在Scala中将Spark DataFrame转换为AWS Glue DynamicFrame

没有相应的以下代码可以从Spark DataFrame转换为Glue DynamicFrame,有什么解决方法? Convert to a dataframe and partition based on "partition_col"p…

Processing spark scala DataFrame

Spark批处理从多列DataFrame写入Kafka主题

在批处理之后,Spark ETL需要向Kafka主题写入包含多个不同列的结果DataFrame。 根据以下Spark文档https://spark.apache.org/docs/2.2.0/structured-streaming-ka…

etl Apache spark DataFrame html

在Pyspark中转置数据框

如何在Pyspark中转置以下数据框? 想法是实现下面显示的结果。 import pandas as pd d = {'id' : pd.Series([1, 1, 1, 2, 2, 2, 3, 3, 3], index=['a', 'b…

spark DataFrame pandas index

Spark Structured Streaming获取最后一个Kafka分区的消息

我正在使用Spark Structured Streaming来读取Kafka主题。 没有任何分区,Spark Structired Streaming消费者可以读取数据。 但是当我向主题添加分区时,客户端仅显示来自最后一个分区的消息。即…

spark DataFrame bootstrap

5
GO