1. 云栖社区>
  2. 全部标签>
  3. #scala#
scala

#scala#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

scala如何参数化case类,并将case类变量传递给[T <:Product:TypeTag]

// class definition of RsGoods schemacase class RsGoods(add_time: Int) // my operationoriginRDD.toDF[Schemas.RsGoods]()…

spark scala class schema

使用pyspark将csv文件转换为parquet文件:Py4JJavaError:调用o347.parquet时发生错误[duplicate]

我正在尝试将csv转换为Parquet。我使用python 3.6和spark 2.3.1 64位。我无法找到给定追溯的解决方案。我也使用64位python。 我有这个csv: Corp,Vathanya BeckCorp,Mario B…

java hadoop SQL Apache shell spark scala Create csv

Spark Scala - ML - Kmeans聚类预测列

我想在我的数据集中使用Kmeans算法后在我的数据集中添加预测列,我不知道如何实现这一点。下面是我到目前为止使用的代码(摘自spark文档) case class MyCase(sId: Int, tId:Int, label:Doubl…

算法 cluster spark scala string

有没有办法在java中的Spark 2.1中进行广播连接

我知道scala中存在如下所述的方法。 val joined_df = df1.join(broadcast(df2), "key")如何在Java中进行广播连接。我是否必须执行sc.broadcast(df2)并在连接中使用它?它会被称…

java spark scala

Scala Spark中两个稀疏向量的余弦相似性

我有一个包含两列的数据框,其中每一行都有一个稀疏向量。我试图找到一种合适的方法来计算每行中两个向量的余弦相似度(或只是点积)。 但是,我还没有找到任何库或教程来为稀疏矢量做这件事。 我发现的唯一方法如下: 创建ak X n矩阵,其中n个项…

函数 spark scala

如何从代码外部提供spark / scala中的模式

我想读取ex:schema_file的文件,它将包含模式,并希望在代码中使用它来创建DataFrame 我已阅读过ConfigFactory提供架构但无法使用它,因为将来可能会更改架构。 schema[ { columnName = …

架构 spark scala DataFrame string schema type

指定列的Spark sql问题

我们正在尝试将oracle db复制到hive中。我们从oracle获取查询并在hive中运行它们。所以,我们以这种格式得到它们: INSERT INTO schema.table(col1,col2) VALUES ('val','va…

java Oracle SQL Apache spark scala Hive demo SUN parse

Spark在创建数据集时无法反序列化记录

我正在从S3读取大量的CSV(一切都在一个键前缀下)并创建一个强类型的Dataset。 val events: DataFrame = cdcFs.getStream()events .withColumn("event", lit("…

java events spark scala DataFrame class csv

如何使用DataFrame中的CountVectorizerModel.vocabulary将termIndices转换为术语?

我使用CountVectorizerModel来创建文本中的特征以在LDA中训练 label sentence words features 0.0 Hi I heard about Spark [hi, i, heard, a…

函数 SQL Apache spark scala DataFrame class

spark scala用map和过滤器阅读文本文件

我有一个文本文件,格式如下(id,f1,f2,f3,...,fn): 12345,0,0,1,2,...,323456,0,0,1,2,...,033333,0,1,1,0,...,056789,1,0,0,0,...,4a_123,0,…

Apache path spark scala 解决方案

如何在sparkcontext.parallelize(...)。map()中执行Hive查询?

我无法执行下面的代码。此代码尝试使用SparkContext runJob()方法内的SparkSession从hive表执行hive查询。 val lines = sparkSession.sparkContext.paralleliz…

java SQL Apache spark scala exchange Hive list

如何在Scala中按值对RDD数据(键,值)进行排序?

我试过sortBy像这样的方法:“ ranks.sortBy(x=&gt; x._2, false); 但是,排名的价值没有排序,细节如图所示。https://i.stack.imgur.com/9OADo.png 那么我应该如何纠正我…

排序 spark scala 解决方案

Spark - 使用OpenCSV解析文件的序列化问题

[Ljava.lang.Object;) - object (class java.lang.invoke.SerializedLambda, SerializedLambda[capturingClass=class test.Main…

java Apache spark scala API string 表达式 class test

Spark写入流到IBM Cloud对象存储失败,“Access KEY为空。请提供有效的访问密钥“

我目前正在使用Apache Spark 2.3.2并创建一个管道来从文件系统中读取流csv文件,然后将其写入IBM Cloud对象存储。 我正在使用Stocator连接器。通过以下配置,对IBM COS的常规读取和写入工作正常。但是,读写…

java hadoop Cloud SQL Apache path spark scala 对象存储 exception Access IBM

Spark:Scala模拟,Task不可序列化

我试图使用mockito进行单元测试一些scala代码。我想在本地运行spark,即在我的IntelliJ IDE中。这是一个样本 class MyScalaSparkTests extends FunSuite with BeforeA…

Apache spark scala class creation type handler 单元测试

flattern scala数组类型列到多列

他们是否有可能在Scala DF中展平阵列? 正如我所知,使用列并选择filed.a可行,但我不想手动指定它们。 df.printSchema() |-- client_version: string (nullable = true) …

spark scala string 数组

Spark Scala:如何同时过滤RDD和更新计数器

我的初始RDD是记录类型,记录的布局是: a_key, b_key,c_key,f_name,l_name,address现在我必须: 删除具有a_key或b_key或c_key为空/空的记录我必须同时更新无效记录的计数器。我这样试过: …

布局 ADD spark scala

spark完成工作所花费的时间

我需要在spark中计算一些东西,比如saprk读取我的文件需要多长时间,所以我喜欢使用sc.setLogLevel("INFO")打印到屏幕上的额外信息,我觉得有用的一件事就是当打印这样的信息时 2018-12-18 02:05:38 …

spark scala 编程

如何在spark-jdbc应用程序中提供表名来读取RDBMS数据库中的数据?

我正在尝试使用spark读取greenplum数据库中的表格,如下所示: val execQuery = s"select ${allColumns}, 0 as ${flagCol} from schema.table where pe…

java PostgreSQL Greenplum Apache 数据库 spark scala JDBC Core source

扩展org.apache.spark.sql.Row功能:Spark Scala

在Spark Row /* Returns true if there are any NULL values in this row. / def anyNull: Boolean = { val len = length var i…

SQL Apache spark scala

9
GO