1. 云栖社区>
  2. 全部标签>
  3. #scala#
scala

#scala#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

从csv计数Spark数据帧,返回错误的结果

我在Spark 2.2中打开了几个“csv”文件,但是当我执行“计数”时它会返回10000000条记录,而实际上它是6000000条记录,当我在python或Alteryx中使用Pandas检查它时,它会给出正确的数字。 scala&gt…

python SQL Apache spark scala DataFrame pandas string read csv utf-8

如何用Spark中的逗号替换空格(使用Scala)?

我有这样的日志文件。我想在Scala中创建一个DataFrame。 2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 …

SQL 日志 spark scala DataFrame 空格 curl

在Scala Spark中以编程方式将所有特定数据类型列转换为其他数据类型

我正在以编程方式尝试转换列的数据类型并遇到一些编码问题。 我修改了这里使用的代码。 数据>>任何数字都被读作字符串。 代码>> import org.apache.spark.sqlraw_data.schema.…

SQL Apache spark scala DataFrame string 编程 schema type 数据类型

分组表达式的相关子查询 - TreeNodeException:Binding属性,tree:count(1)#382L

假设我试图对一些由对(a和b值)组成的样本数据进行统计。有些对存在多次,有些则不存在。 spark.createDataFrame([ Row(a=5, b=10), Row(a=5, b=10), Row(a=5, b=10), Row…

SQL Apache spark scala 表达式 Group

强制maven使用本地依赖

我有一个使用spark graphX模块的Spark代码。我需要在graphX中进行更改并强制我的项目使用graphX的这个修改版本。为了做到这一点,我首先从spark源代码中取出了graphx模块并独立编译。然后我在我的应用程序pom.…

Apache 模块 Maven spark scala utf-8

案例类映射到csv

,dept_name1,acc2,finance3,sales4,marketing当在df.show()和rdd.toDF.show()中使用时,为什么show()的输出存在差异。 scala> case class Depart…

spark scala string class read csv

Spark数据帧Timestamp列从Mapr DB表中推断为InvalidType

我用Spark从MapR DB读表。但是timestamp列被推断为InvalidType。从Mapr db读取数据时,也没有设置模式的选项。 root |-- Name: string (nullable = true) |-- dt:…

java 服务器 SQL Apache request spark DB scala string Elasticsearch PUT index thread 单元测试

使用scala为ElasticSearch测试用例创建虚拟SearchResponse实例

有没有办法,我可以用0次点击创建一个SearchResponse类型的变量? 我正在努力创建一个用于测试目的

测试 spark scala Elasticsearch

MongoDB和Spark:无法将STRING转换为TimestampType

我正在使用官方MongoDB Spark Connector从MongoDB集合中读取Spark中的数据,其代码如下: val spark = SparkSession. builder(). appNam…

架构 MongoDB SQL spark scala string exception

比较dataframe列中存在的scala中的日期

我想在过滤器中比较以下日期,如下所示: - dataframe 具有值的KIN_PRC_FILE列pos_price_expiration_dt9999-12-31 val formatter = new SimpleDateFormat…

spark scala DataFrame

如何计算spark Scala中2行之间的时间差

我试图在两行相同的列之间找到时间,包括日期和时间,如下所示, column1 1/1/2017 12:01:00 AM1/1/2017 12:05:00 AM 所以我想得到colum…

spark scala

sbt:找到资源目录下文件/文件夹的正确路径

我有一个简单的项目结构: WordCount | | ------------ project | ---------------- | --- assembly.sbt | | ------------ resources | ----…

Apache path 控制台 spark scala string file

flink表api异常

"我正在使用flink表api,使用kafka作为输入源,使用json作为表模式。提交程序时出现此错误:`程序完成以下异常: org.apache.flink.client.program.ProgramInvocationExcepti…

java Json Apache scala API schema type SUN flink

如何在Scala的Flink中定义KeySelector?

"我有一个流媒体流程基本上是这样的 Stream(Int, Boolean, Int).Keyby(0, 1).Window().process()关键是我想要定义一个组合键然后处理它。但是,如果我使用keyby(0, 1)和proces…

函数 scala stream flink

flink与scala api中的parseQuotedStrings相同

"我想将此jave代码转换为scala: DataSet> lines = env.readCsvFile(""movies.csv"") .ignoreFirstLine() .parseQuote…

scala API string class csv flink

错误没有指定Runner并且在类路径上找不到DirectRunner

"我正在运行flink 1.6.1的单节点flink集群上运行字数统计示例 并继续得到这个错误。 我正在使用beam版本2.8.0。 错误 jobmanager_1 | 2018-10-28 07:20:41,401 ERROR or…

java Apache sdk runtime scala pipeline Create flink

Scala列表的唯一最大元素

"我希望使用带有Scala的apache flink执行max函数,如果它是唯一的,则返回最大元素,否则返回-1。为了更好地理解,有一个例子如下: 2是列表[1,2,1]的函数的返回。 -1是list [3,3,1]函数的返回值,因为最大…

函数 Apache reduce scala list flink

在Scala中,如何从字符分隔的二进制文件中读取字节?

"在Scala中,给定一个二进制文件,我想检索Array [Byte]项的列表。 例如,二进制文件具有由字符/字节'my-delimiter'分隔的项目。 如何获取每个项目的数组[字节]列表?"

scala 数组 flink

[@徐雷frank][¥20]spark开发,Java与Scala如何选择

徐大神,这两种语言怎么选择

编程语言 java spark scala

[@徐雷frank][¥20]学习大数据开发Java与Scala如何选择

准备学习spark开发,Java与Scala如何选择

编程语言 大数据 java spark scala

9
GO