让科学的“可重复性流程”重回数据科学

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

让科学的“可重复性流程”重回数据科学

小旋风柴进 2017-05-22 15:31:00 浏览1104
展开阅读全文


0?wx_fmt=jpeg

科学(比如物理、化学等)的主要原则(或者至少是科学的理想原则)之一是:可重复性。只有结果能被清楚地再现并经过严格的同行评议后,真正“科学的”结论才能被学术界所接受。当然,不管是学术界里科学家还是数据科学家,在实际操作过程中,事情都会变的有些混乱。很多数据科学家所使用的流程都还远未达到可重复性。这些流程可能是如下的几种形式:

  • 一系列的Jupyter notebook,里面包括不断增加的描述性的文件名,比如second_attempt_at_feature_selection_for_part2.ipynb。

  • Python或R的脚本,被手工拷贝到一台机器上,并用crontab来设置定时运行。

  • 相当鲁棒但很难看懂的应用程序。一般是由数据科学家完成需求文档,并交由软件工程师来开发的。

  • 一些应用程序,它们生成的结果几乎不可能与一个或多个持续变化的数





网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属团队号: 大数据文摘