DataFrame API应用案例

简介: DataFrame API1、collect与collectAsList、 collect返回一个数组,包含DataFrame中的全部Rows  collectAsList返回一个Java List,包含DataFrame中包含的全部Rows    2、count  返回DataFrame的rows的个数   3、first  返回第一个row  4、head  不带参数的head方法,返回DataFrame的第一个Row。

DataFrame API

1、collect与collectAsList

、 collect返回一个数组,包含DataFrame中的全部Rows

  collectAsList返回一个Java List,包含DataFrame中包含的全部Rows

  

  

2、count

  返回DataFrame的rows的个数

  

 3、first

  返回第一个row

  

4、head

  不带参数的head方法,返回DataFrame的第一个Row。指定参数n时,则返回前那个Rows

   

 5、show  

  不带参数的show,显示前20个Rows,指定个数n,则显示n个

  

6、take

  返回DataFrame前n个Rows

  

7、cache

  将DataFrame缓存到内存中

8、Columns

  以数组的形式返回DataFrame的全部列名

  

9、dtypes

  以数组的形式返回DataFrame的所有列名及其对应的数据类型

  

10、explain

  用于调试的目的,不带参数时,仅将DataFrame的物理计划打印到控制台上;当指定参数extended为true时,打印所有计划到控制台上,包括物理计划、逻辑计划

  

11、isLocal

  如果collect与take方法在本地运行时,返回true

  

12、printSchema

  以树形结构将DataFrame的Schema信息打印到控制台

  

13、registerTempTable

  将DataFrame注册为指定名字的临时表

     

14、schema

  返回DataFrame的Schema信息,对应类型为StructType

  

15、toDF

  不带参数的toDF返回它本身,带字符串数组的参数时,返回新的DataFrame,该DataFrame重命名了各列名

  

16、agg

  将DataFrame提供不需要经过groups就可以执行的统计操作

  

17、apply

  根据指定列名返回DataFrame的列,类型为Column

    

18、as

  使用别名创建DataFrame

19、distinct

  返回对DataFrame的Rows去重后的DataFrame

  

20、except

  返回DataFrame,包含当前Frame的Rows,同时这些Rows不在另一个Frame中。相当于两个DataFrame做减法

  

21、explode

  返回一个新的DataFrame,其中原来的每一列被指定的函数扩展成零行或多行  

    

  

22、filter

  按参数指定的sql表达式的条件过滤DataFrame

  

23、groupBy

  使用一个或多个指定的列队DataFrame进行分组,以便对他们执行聚合操作

   

24、intersect

  取两个DataFrame中同时存在的Rows,返回DataFrame

  

25、join

      

26、limit

  返回DataFrame的前n个Rows

  

27、orderBy和sort

  按指定的一列或多列进行排序,分别支持字符串或Column的参数列表

  

  

28、sample

  按指定因子对DataFrame的Rows进行抽样,如果指定withReplacement为true时,使用指定的种子或随机的种子进行替换。

  

29、select

  从DataFrame中选取指定的列,返回DataFrame,指定列有三种方式,可以用列名字符串的重复参数,或Column重复参数及列名表达式的多个参数指定

  

  

30、unionAll

  联合调用者和参数这两个DataFrame的Rows

    

31、withColumn和withColumnRenamed

  对DataFrame列进行操作,withColumn增加列信息,withColumnRenamed对列进行重命名

  

32、save

  保存到指定路径下

  

  

33、saveAsParquetFile

  保存到数据源为parquet的指定路径下

  

  

34、flatMap

  对DataFrame中Rows进行处理,并且处理结果

  

35、foreach

    

36、map和mapPartitions

  map将DataFrame的Row按指定的函数参数映射成R实例,并返回以R为元素的类型的RDD实例。mapPartitions类似

  

37、repartition

  返回一个DataFrame,该DataFrame按指定numPartitions对原DataFrame进行重分区

  

38、toJSON

  把DataFrame的内容用包含json字符串的RDD返回

  

39、queryExecution

  返回DataFrame的查询执行语句,包含逻辑计划和物理计划

  

 

当神已无能为力,那便是魔渡众生
目录
相关文章
|
22天前
|
监控 前端开发 JavaScript
实战篇:商品API接口在跨平台销售中的有效运用与案例解析
随着电子商务的蓬勃发展,企业为了扩大市场覆盖面,经常需要在多个在线平台上展示和销售产品。然而,手工管理多个平台的库存、价格、商品描述等信息既耗时又容易出错。商品API接口在这一背景下显得尤为重要,它能够帮助企业在不同的销售平台之间实现商品信息的高效同步和管理。本文将通过具体的淘宝API接口使用案例,展示如何在跨平台销售中有效利用商品API接口,以及如何通过代码实现数据的统一管理。
|
1月前
|
缓存 JavaScript 算法
活用 Composition API 核心函数,打造卓越应用(下)
活用 Composition API 核心函数,打造卓越应用(下)
|
1月前
|
存储 JavaScript API
活用 Composition API 核心函数,打造卓越应用(上)
活用 Composition API 核心函数,打造卓越应用(上)
|
2月前
|
机器学习/深度学习 API 开发工具
通义千问API入门教程
本教程将带你从零开始,快速了解如何通过 API 使用通义千问大模型,并尝试使用大模型 API 开发一些简单的应用应用到工作中,提升效率。
12924 10
|
2月前
|
Java API 开发工具
支付与银行业线上客户协议应用中的DocuSign集成方式选择——SDK和API
跨境支付公司和Docusign进行集成时,碰到问题时的解决方案。分别用SDK和API集成后的各自使用体验。
46 2
支付与银行业线上客户协议应用中的DocuSign集成方式选择——SDK和API
|
2月前
|
人工智能 NoSQL Serverless
基于函数计算3.0 Stable Diffusion Serverless API 的AI艺术字头像生成应用搭建与实践的报告
本文主要分享了自己基于函数计算3.0 Stable Diffusion Serverless API 的AI艺术字头像生成应用搭建与实践的报告
469 6
基于函数计算3.0 Stable Diffusion Serverless API 的AI艺术字头像生成应用搭建与实践的报告
|
2月前
|
机器学习/深度学习 搜索推荐 API
商品信息全景图:API接口在聚合商品数据中的应用
在电子商务的世界中,API接口是连接不同服务和数据的桥梁。特别是在商品信息的聚合上,API接口扮演了至关重要的角色,它允许开发者从多个来源收集、整合并展示商品信息,从而为消费者提供全面且一致的购物体验。本文将深入探讨API接口在聚合商品数据中的应用,并通过具体的代码示例来揭示其工作原理。
|
3月前
|
缓存 JavaScript Serverless
一些可能被忽视的 Vue3 API 附带案例
一些可能被忽视的 Vue3 API 附带案例
111 0
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
106 0
|
1月前
|
人工智能 关系型数据库 Serverless
Serverless 应用引擎常见问题之API生成的函数镜像改为自定义的镜像如何解决
Serverless 应用引擎(Serverless Application Engine, SAE)是一种完全托管的应用平台,它允许开发者无需管理服务器即可构建和部署应用。以下是Serverless 应用引擎使用过程中的一些常见问题及其答案的汇总:
39 3