开发者社区> 问答> 正文

如何在CSV文件中的更新行上运行流查询?

我在一个不断更新的文件夹中有一个csv文件。我需要从这个csv文件中获取输入并生成一些事务。如何从持续更新的csv文件中获取数据,每5分钟一次的话?

我试过以下:

val csvDF = spark
.readStream
.option("sep", ",")
.schema(userSchema)
.csv("file:///home/location/testFiles")
但问题是它是监视文件夹是否创建了任何新文件......但我的问题只是一个不断更新的文件。

展开
收起
社区小助手 2018-12-19 16:24:55 1306 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    tl; dr它不起作用。

    默认情况下,Spark Structured Streaming监视目录中的文件,并且每个新文件都会触发计算。处理完文件后,将永远不再处理该文件。这是默认实现。

    您可以编写自己的流式源,可以监视文件的变化,但这是一个自定义的源开发(在大多数情况下,这是不值得的努力)。

    2019-07-17 23:23:01
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
大批量处理excel文件到ODPS中方案 立即下载
4个迭代,从批量交...1573957773.pdf 立即下载
低代码开发师(初级)实战教程 立即下载