1. 云栖社区>
  2. 全部标签>
  3. #DataFrame#
DataFrame

#DataFrame#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器

我有一个名为root的列,需要根据根列的不同值过滤数据帧。 假设我在root中有一个值是父,子或子子,我想通过变量动态应用这些过滤器。 val x = ("parent,child,sub-child").split(",")x.map(…

spark scala DataFrame

dataframe spark scala取每组的(MAX-MIN)

我有一个来自处理部分的数据框,如下所示: +---------+------+-----------+ Time group value 28371 94 906 28372 94 864 28373 94 682 …

spark scala DataFrame Group

Spark,Scala:如何从Rdd或dataframe中删除空行?

我在scala上使用spark。我在Rdd中有一些空行。我需要将它们从Rdd中删除。 我试过它: val valfilteredRow = rddRow.filter(row => row!=null && row.…

spark scala DataFrame

Scala,Spark-shell,Groupby失败

我有Spark版本2.4.0和scala版本2.11.12。我可以使用以下代码成功加载数据帧。 val df = spark.read.format("csv").option("header","true").option("delim…

SQL Apache spark scala DataFrame read csv

从广播列表中删除元素

我有一个URL列表,例如: www.google.comwww.yahoo.frwww.stackoverflow.com我想删除包含字符串“ oo”和“ flow”的所有URL 。 我做了一个python函数: def my_funct…

python 函数 spark DataFrame google url index

拆分文本并在Spark Dataframe中查找常用词

我正在使用Spark处理Scala,我有一个包含两列文本的数据框。 这些列的格式为“term1,term2,term3,...”,我想创建第三列,其中包含两个列的常用术语。 例如 Col1 orange, apple, melonpart…

spark DataFrame string UDF Apple

如何从代码外部提供spark / scala中的模式

我想读取ex:schema_file的文件,它将包含模式,并希望在代码中使用它来创建DataFrame 我已阅读过ConfigFactory提供架构但无法使用它,因为将来可能会更改架构。 schema[ { columnName = …

架构 spark scala DataFrame string schema type

Spark在创建数据集时无法反序列化记录

我正在从S3读取大量的CSV(一切都在一个键前缀下)并创建一个强类型的Dataset。 val events: DataFrame = cdcFs.getStream()events .withColumn("event", lit("…

java events spark scala DataFrame class csv

如何使用DataFrame中的CountVectorizerModel.vocabulary将termIndices转换为术语?

我使用CountVectorizerModel来创建文本中的特征以在LDA中训练 label sentence words features 0.0 Hi I heard about Spark [hi, i, heard, a…

函数 SQL Apache spark scala DataFrame class

spark到pandas

我有220GB的数据。我已将它作为2列读入spark数据帧:JournalID和Text。现在我的数据帧中有27个缺少行。 使用NGram类,我在数据框中添加了两列Unigram和Bigram,其中包含Text列中的unigrams和bi…

算法 spark DataFrame pandas

如何有效地将DataFrame转换为(列名称 - >列值列表)的Map

我想要实现的是,对于以下DataFrame: | FOO | BAR | BAZ || lorem | ipsum | dolor || sit | amet | dolor | | lorem | lorem | d…

spark DataFrame Cassandra list

使用pyspark中json文件的模式读取固定宽度文件

我有固定宽度文件如下 00120181120xyz1234100220180203abc5679200320181203pqr25483 以及JSON指定架构的相应文件: {"Column":"id","From":"1","To":"3…

架构 Json spark DataFrame xyz file read

将Spark org.apache.spark.sql.Dataset#show()的输出作为字符串获取?

有没有办法检索Dataset#show()String 的输出? 以下打印到stdout,但我想知道我是否可以将其作为String检索并更好地记录: val foobarData: DataFrame = ... println("+++…

SQL Apache spark DataFrame string

从pyspark.sql.dataframe.DataFrame到arraytype

假设我有以下DataFrame。 import pyspark.sql.functions as ffrom pyspark.sql.window import Window l =[( 9 , 1, 'A' ), ( 9 …

SQL spark DataFrame 数组

在Apache spark中跨执行程序共享数据

我的SPARK项目(用Java编写)需要跨执行程序访问(SELECT查询结果)不同的表。 这个问题的一个解决方案是: 我创建了一个tempView选择所需的列使用forEach转换DataFrame为Map。将该映射作为跨执行器的广播变量…

SQL Apache spark 解决方案 DataFrame string void 存储

如何使用Spark JDBC数据源设置表编码?

我正在使用Spark JDBC将数据提取到Mysql表中。如果表不存在,它也会创建一个表。许多文本都有特殊字符。如果遇到任何特殊字符,摄取失败。我通过手动将CHARACTER SET utf8设置为MySQL表来解决了这个问题。 这是否可…

mysql spark DataFrame string JDBC

如何在pyspark中读取多级json?

Json Structure is -:aa.json [[{"foo":"test1"},{"foo1":"test21"}],[{"foo":"test2"},{"foo1":"test22"}],[{"foo":"test3"},{…

SQL Json spark DataFrame string test read

PySpark无法访问使用StringIndexer添加的列

PySpark无法访问使用StringIndexer添加的列我试图将String列转换Country为Interger列Country_ID,结果看起来很好。但当我试图访问Country_ID我得到的列AnalysisException。…

spark DataFrame string

使用DataFrame类型在scala中定义函数

我会有一个简单的问题......我尝试使用一个将数据帧作为参数的函数并返回另一个数据帧 我做: val get_nb_previous_offre : ((DataFrame) => (DataFrame)) = (arg1: Da…

函数 spark scala DataFrame Create type

Spark批量加载文件集合,并从文件级别查找每个文件中的行以及其他信息

我有使用逗号分隔符指定的文件集合,如: hdfs://user/cloudera/date=2018-01-15,hdfs://user/cloudera/date=2018-01-16,hdfs://user/cloudera/date…

hdfs Apache spark DataFrame file input

5
GO