解锁云原生 AI 技能 - 开发你的机器学习工作流

  1. 云栖社区>
  2. 阿里巴巴云原生>
  3. 博客>
  4. 正文

解锁云原生 AI 技能 - 开发你的机器学习工作流

一绿舟 2019-07-30 18:04:55 浏览736
展开阅读全文

按照上篇文章《解锁云原生 AI 技能 | 在 Kubernetes 上构建机器学习系统》搭建了一套 Kubeflow Pipelines 之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于 Kubeflow Pipelines 的机器学习工作流。

准备工作

机器学习工作流是一个任务驱动的流程,同时也是数据驱动的流程,这里涉及到数据的导入和准备、模型训练 Checkpoint 的导出评估、到最终模型的导出。这就需要分布式存储作为传输的媒介,此处使用 NAS 作为分布式存储。

  • 创建分布式存储,这里以 NAS 为例。此处 NFS_SERVER_IP 需要替换成真实 NAS 服务器地址
  1. 创建阿里云 NAS 服务,可以参考文档
  2. 需要在 NFS Server 中创建 /data
# mkdir -p /nfs
# mount -t nfs -

网友评论

登录后评论
0/500
评论
一绿舟
+ 关注
所属云栖号: 阿里巴巴云原生