新学者,记录自己的探索轨迹
ODPS是一套独立于Hadoop/Spark/的计算平台,优势:
1 依托阿里云的强大算力
2. DTPAI图形界面可以给你单机GUI数据挖掘(类似SPSS/SAS)的方便,能调用并行资源,
3. 内置很多机器学习算法
使用流程
1. 阿里云官网开通大数据计算服务
ODPS是一套独立于Hadoop/Spark/的计算平台,优势:
1 依托阿里云的强大算力
2. DTPAI图形界面可以给你单机GUI数据挖掘(类似SPSS/SAS)的方便,能调用并行资源,
3. 内置很多机器学习算法
4. 其他辅助数据很多,比如郡县图治
5. PYODPS也有了,Dataframe等
使用流程
1. 阿里云官网开通大数据计算服务
2. 阿里云官网ODPS控制台创建项目:http://odps.console.aliyun.com
数据管理和big table 定义平台:http://ide.shuju.aliyun.com
左侧图标是table mgmt
左侧图标是table mgmt
3. 数加官网数据开发控制台关联数据开发项目:
主要教程和文档
GUI工作流最后编译为PAI命令
坑
开通后DTPAI里预览数据是右键。Execute
主要教程和文档
帮助:语法基础
PAI GUI:
ODPS机器学习手册
GUI工作流最后编译为PAI命令
坑
小心安装时候如果有System Proxy可能会出md5 校验错
SQL语句独特格式:
select a,b from tablea distrbt by a order by B (类似paritition 分析函数,但是分发到不同机器处理,否则速度无法接受)
select a from tablea order by a limit 10 (否则也有巨大延时