开发者社区> 问答> 正文

PySpark在创建包含现有列名的新列时读取多个文件

我想使用pyspark 读取n个 csv文件。csv具有相同的模式,但具有不同的列名称。

在阅读这些文件时,我想创建一个包含第一列名称的子字符串的附加列“管道”。

我该如何实现呢?

df = spark.read.format("csv") \

            .option("header", True) \
            .load(path + "*.csv")
            .withColumn("pipeline", 

展开
收起
社区小助手 2018-12-12 18:13:11 2163 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    image"df = spark.read.format(""csv"") \

                .option(""header"", ""false"") \
                .load(path + ""*.csv"")
                .toDF('header_1')
                .withColumn(""pipeline"", lit(path))"
    2019-07-17 23:20:15
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《Apache Flink-重新定义计算》PDF下载 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载