1. 云栖社区>
  2. 全部标签>
  3. #DataFrame#
DataFrame

#DataFrame#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark TSV文件和不正确的column spit

我有很多行的TSV文件。很多行都运行正常,但我有使用以下行的问题: tt7841930 tvEpisode "Stop and Hear the Cicadas/Cold-Blooded "Stop and Hear the Ci…

Animation spark DataFrame csv

拆分spark DataFrame列

我正在使用spark 2.3 我有这样的DataFrame(在其他情况下_c0可能包含20个内部字段): c0 | _c1 1.1 1.2 4.55 | a4.44 3.1 …

spark DataFrame string

Dataframes join在Spark Scala中返回空结果

我在Spark Scala中有四个数据框(Spark版本:2.3和Spark-sql:2.11和Scala版本:2.11.0),例如: ratingsDf ratings id 0 1 1 2 1 3 0 4 0…

SQL spark scala DataFrame

根据列中的值复制Spark数据帧中的行

我想根据给定列的值复制行。例如,我得到了这个DataFrame: count 3 1 4 我想得到: count 3 3 3 1 4 4 4 4 withColum根据这个答案我尝试使用方法。 val replicateD…

spark DataFrame 表达式

从csv计数Spark数据帧,返回错误的结果

我在Spark 2.2中打开了几个“csv”文件,但是当我执行“计数”时它会返回10000000条记录,而实际上它是6000000条记录,当我在python或Alteryx中使用Pandas检查它时,它会给出正确的数字。 scala&gt…

python SQL Apache spark scala DataFrame pandas string read csv utf-8

如何用Spark中的逗号替换空格(使用Scala)?

我有这样的日志文件。我想在Scala中创建一个DataFrame。 2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 …

SQL 日志 spark scala DataFrame 空格 curl

使用嵌套的不同模式联合两个数据帧

Dataframe1看起来像这样 root |-- source: string (nullable = true) |-- results: array (nullable = true) | |-- content: struc…

spark DataFrame string source

使用不同顺序的两列对Spark Dataframe进行排序

比方说,我有一个这样的表: A,B2,61,21,31,52,3我想按列的升序排序,A但在其中我想按列的降序对其进行排序B,如下所示: A,B1,51,31,22,62,3我试过用,orderBy("A", desc("B"))但它给出了…

排序 spark DataFrame

df.repartition没有列参数分区?

在PySpark中,重分区模块有一个可选的列参数,该参数会通过该键重分区数据框架。 我的问题是 - 当没有密钥时,Spark如何重新分配?我无法深入研究源代码,以找到Spark本身的位置。 def repartition(self, nu…

模块 spark DataFrame

在Scala Spark中以编程方式将所有特定数据类型列转换为其他数据类型

我正在以编程方式尝试转换列的数据类型并遇到一些编码问题。 我修改了这里使用的代码。 数据>>任何数字都被读作字符串。 代码>> import org.apache.spark.sqlraw_data.schema.…

SQL Apache spark scala DataFrame string 编程 schema type 数据类型

创建一个Spark udf函数来迭代一个字节数组并将其转换为数字

我有一个带有spark(python)字节数组的Dataframe DF.select(DF.myfield).show(1, False)+----------------+ myfield [00 8F 2B 9C 80] 我正在…

python 函数 spark DataFrame UDF 数组

比较dataframe列中存在的scala中的日期

我想在过滤器中比较以下日期,如下所示: - dataframe 具有值的KIN_PRC_FILE列pos_price_expiration_dt9999-12-31 val formatter = new SimpleDateFormat…

spark scala DataFrame

如何用整数替换Null条件Pyspark Dataframe

我想(在pyspark / spark内)。具体来说,数据框如下所示: ID response_variable id_nameid_1 NULL "randomidDKHFD"id_2 …

spark DataFrame

pyodps 中setdiff 的使用问题

通过读取两个 odps中的dataframe A和 B,A[['apply_no']].setdiff(B[[B.index.rename('apply_no')]]) 报错 Do not allow python UDF in proj…

编程语言 python odps PyOdps DataFrame string UDF index setdiff

pyodps中如何实现pandas中concat的作用?

在pandas中,在行合并中,concat 可以把两个列名不一样的Dataframe合在一起,通过加入NA。在pyodps中,concat的作用和Union一样,对两个列名不一样的Data frame 会报错。比如:df1 = DataF…

PyOdps DataFrame pandas concat

开发新手,SparkSQL有2个数据集,思想是循环嵌套求出匹配值。求其能够实现的方式。

用SparkSQL引入了2个DataFrame的数据集,暂叫拦截数据集和信息数据集,用拦截数据集中的每一行值(其实只有一列),去匹配信息数据集(也是只有一列),得出这行结果的命中次数,然后将这个命中次数和这条拦截数据和拦截到的信息,再用Da…

大数据 算法 数据库 DataFrame

5
GO