继盛 + 关注
程序猿一枚,把梦想揣进口袋的挨踢工作者。主要工作是分布式数据分析(DataFrame并行化框架),以及大规模分布式多维数组计算框架等。

PyODPS DataFrame 处理笛卡尔积的几种方式

发布时间:2019-06-12 15:03:27 浏览:10675 评论 :0

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。

python 函数 PyOdps DataFrame pandas string MaxCompute

PyODPS DataFrame 的代码在哪里跑

发布时间:2019-06-06 11:18:08 浏览:2310 评论 :0

在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。

python 服务器 函数 odps PyOdps DataFrame Other MaxCompute

如何制作可以在 MaxCompute 上使用的 crcmod

发布时间:2019-02-28 14:57:54 浏览:1536 评论 :0

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

python docker 函数 根目录 镜像 PyOdps 脚本 github Bash MaxCompute

Mars 算法实践——人脸识别

发布时间:2019-01-08 14:20:17 浏览:3415 评论 :0

Mars 是一个基于矩阵的统一分布式计算框架,在之前的文章中已经介绍了 Mars 是什么, 以及 Mars 分布式执行 ,而且 Mars 已经在 GitHub 中开源。当你看完 Mars 的介绍可能会问它能做什么,这几乎取决于你想做什么,因为 Mars 作为底层运算库,实现了 numpy 70% 的常用接口。

python 分布式 算法 session 人脸识别 tensor Numpy Mars svd

Mars 如何分布式地执行

发布时间:2019-01-08 14:18:39 浏览:1907 评论 :0

先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

分布式 集群 PyOdps 磁盘 存储 tensor Mars Arrow

Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

发布时间:2019-01-08 14:10:53 浏览:2956 评论 :0

最近,在 PyCon China 2018 的北京主会场、成都和杭州分会场都分享了我们最新的工作 Mars,基于矩阵的统一计算框架。本文会以文字的形式对 PyCon 中国上的分享再进行一次阐述。 听到 Mars,很多第一次听说的同学都会灵魂三问:Mars 是什么,能做什么,怎么做的。

python 分布式 机器学习 性能 多进程 pandas GPU Numpy Mars cupy numexpr

Mars——基于张量的统一分布式计算框架

发布时间:2019-01-08 14:05:00 浏览:6734 评论 :1

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

python 深度学习 分布式 大数据 算法 PyOdps pandas 分布式计算 actor scikit-learn tensor Numpy Mars ndarray cupy

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

发布时间:2018-05-10 11:23:52 浏览:8684 评论 :0

背景 [PyODPS DataFrame]http://pyodps.readthedocs.io/zh_CN/latest/) 提供了类似 pandas 的接口,来操作 ODPS 数据,同时也支持在本地使用 pandas,和使用数据库来执行。

函数 aliyun PyOdps DataFrame pandas MD5 MaxCompute

在 MaxCompute UDF 中运行 Scipy

发布时间:2018-05-10 10:52:45 浏览:2949 评论 :1

新版 MaxCompute Isolation Session 支持 Python UDF。也就是说,Python UDF 中已经可以跑二进制包。刚才以 Scipy 为例踩了一下坑,把相关的过程分享出来。

python 函数 path 工单 odps 沙箱 UDF MaxCompute

PyODPS 中使用 Python UDF

发布时间:2017-12-22 11:50:09 浏览:5856 评论 :0

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

python 函数 SQL Json odps PyOdps DataFrame string UDF MaxCompute

PyODPS 安装常见问题解决

发布时间:2017-11-30 15:36:40 浏览:5631 评论 :0

python mac odps 钉钉 PyOdps pip Bash MaxCompute

PyODPS开发中的最佳实践

发布时间:2017-07-24 00:25:45 浏览:6438 评论 :0

PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。

python 函数 Json http PyOdps DataFrame pandas MaxCompute 数据应用 MaxCompute最佳实践

PyODPS DataFrame:统一的数据查询语言

发布时间:2017-03-16 10:08:43 浏览:4606 评论 :1

前几天,PyODPS发布了0.7版本,这篇文章给大家介绍下PyODPS新版本带来的重要特性。 之前也有若干篇文章介绍过了,我们PyODPS DataFrame是延迟执行的,在调用立即执行的方法,比如execute、persist等之前,都只是构建了表达式。

python PostgreSQL mysql HTTPS 数据库 钉钉 aliyun PyOdps DataFrame pandas metadata github MaxCompute

PyCon China 2016上海分会关于PyODPS的介绍(PPT)

发布时间:2016-09-18 18:00:13 浏览:3358 评论 :0

PyOdps DataFrame pandas MaxCompute

什么是PyODPS DataFrame

发布时间:2016-09-18 17:47:18 浏览:4981 评论 :0

这篇文章解释了PyODPS DataFrame是什么,能做什么事情,以及简单介绍一下实现的原理。

python PyOdps DataFrame pandas MaxCompute

MaxCompute上你从未体验过的数据分析和机器学习过程

发布时间:2016-09-09 21:41:09 浏览:8708 评论 :0

PyODPS,拥有对于Python用户传统的数据分析和机器学习愉快的体验,包括了DataFrame框架和机器学习模块,它们类似于pandas+scikit-learn,能用它们进行数据分析、绘图、机器学习等等。

python PyOdps DataFrame pandas MaxCompute

PyOdps 0.4版本发布,从一个故事说起

发布时间:2016-04-06 14:40:55 浏览:5581 评论 :0

PyOdps 0.4版本,DataFrame API支持使用pandas进行本地计算,用户因此能join ODPS和本地数据,也能进行本地debug,另外还有MapReduce API等新特性

python 大数据 PyOdps DataFrame pandas MaxCompute

PyOdps DataFrame来临,数据分析从未如此简单!

发布时间:2016-02-03 12:01:23 浏览:9491 评论 :1

PyOdps正式发布DataFrame框架(此处应掌声经久不息),DTer的福音!有了它,就像卷福有了花生,比翼双飞,哦不,如虎添翼。 快过年了,大家一定没心情看长篇大论的分析文章。作为介绍PyOdps DataFrame的开篇文章,我只说说其用起来爽的地方。其余的部分,从使用、问题到实现原理,我

python PyOdps DataFrame pandas