在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

继盛 2018-05-10 11:23:52 浏览8672
展开阅读全文

背景

PyODPS DataFrame 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行

PyODPS DataFrame 除了支持类似 pandas 的 mapapply 方法,也提供了 MapReduce API 来扩展 pandas 语法以适应大数据环境。

PyODPS 的自定义函数是序列化到 MaxCompute 上执行的,MaxCompute 的 Python 环境只包含了 numpy 这一个第三方包,用户常常问的问题是,如何在自定义函数里使用 pandas、scipy 或者 scikit-learn 这样的包含c代码的库?

现在,MaxCompute 在 sprint 27 及更高版本的 isolation,让在自定义函数中使用这些包成为可能。同时,
PyO

网友评论

登录后评论
0/500
评论
继盛
+ 关注