独家 | 10个数据科学家常犯的编程错误(附解决方案)

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

独家 | 10个数据科学家常犯的编程错误(附解决方案)

初商 2019-08-25 22:01:47 浏览450
展开阅读全文

作者:Norman Niemer

翻译:李润嘉

校对:李洁

文章来源:微信公众号 数据派THU

本文约2000字,建议阅读10分钟。

本文为资深数据科学家常见的10个错误提供解决方案。

----

数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。许多数据科学家都具有统计学背景,但是在软件工程方面的经验甚少。我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文将为你相关解决方案:

  • 不共享代码中引用的数据
  • 对无法访问的路径进行硬编码
  • 将代码与数据混合
  • 在Git中和源码一起提交数据
  • 编写函数而不是DAG
  • 写for循环
  • 不编写单元测试
  • 不写代码说明文档
  • 将数据保存为csv或pickle文件
  • 使用jupyter notebook

1. 不共享代码中引用

网友评论

登录后评论
0/500
评论
初商
+ 关注
所属云栖号: 数据派THU