一位数据科学家的私房工具清单

简介:

转自hayaqi0504原文 一位数据科学家的私房工具清单

 

来自:IT经理网微信号:ctociocom)

链接:www.ctocio.com/ccnews/23145.html(点击尾部阅读原文前往)


作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。


近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:


处理较大、较复杂的类excel数据

  • Pandas -处理tabular(类似Excel)数据的通用工具套件

  • SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。

  • PostgreSQL – 企业级数据库系统


处理空间、地理数据:

PostGIS – Postgres的地理空间数据类型扩展

Carto – 地理空间数据的商业数据挖掘工具

Mapbox – 商业地图绘制工具,同时也是一个web地图系统。

Leaflet – 基于网络资源和本地数据开发活动web地图的代码库

qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具


处理非常规数据:

  • RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。

  • MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。

  • CouchDB – 与mongodb有些类似但不尽相同。

  • Cassandra – 图谱和关系数据库


为大规模数据集创建性能代码:

  • Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。

  • Apache Spark – 一个通用的高性能数据处理系统

  • SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。

  • Cython – 使用用C编译器的python编译器,用来提升Python性能。

  • PyOpenCL – 在图形显卡上进行数值计算和统计处理。


数据清洗工具

  • ODO – 在不同数据格式间进行转换的Python库。

  • OpenRefine – 拥有图形用户界面的数据发现和清洗工具

  • Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集

  • Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

  • BeautifulSoup – 与Scrapy类似但不尽相同

  • Scrubadub – 去除个人身份信息

  • Arrow – 帮你轻松驾驭日期和时间戳的Python库

  • DataCleaner – 剔除脏数据的Python库

  • Dora – 与DataCleaner功能类似的Python库。


数据可视化工具

  • Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing Data

  • D3 – 在web上开发可视化交互

  • C3 – 来自D3的图表.

  • Bokeh – 与D3类似, 但基于Python.

  • matplotlib – 最早的Python数据可视化工具集。

  • Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。

  • MapBox -详见地图工具集。

  • qGIS – 详见地图工具集。

  • VTK – 在医疗、  和物理研究领域常用的重型可视化工具包。


数据挖掘和机器学习工具

  • Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书

  • SciKitLearn – 基于Python的机器学习和数据挖掘工具套件。

  • Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。

  • TensorFlow – Google开源的多维度图谱数学建模工具。


分享、协作以及知识管理工具

  • Django -基于Python的web框架

  • Django REST Framework – 为Django网站创建 REST APIs

  • IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。

  • Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统

  • GitLab -GitHub的开源替代品,可搭建私人服务器。

  • ReciPy –

  • Prov – Python implementation of the W3C provenance model

  • Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。

没有整理与归纳的知识,一文不值!高度概括与梳理的知识,才是自己真正的知识与技能。 永远不要让自己的自由、好奇、充满创造力的想法被现实的框架所束缚,让创造力自由成长吧! 多花时间,关心他(她)人,正如别人所关心你的。理想的腾飞与实现,没有别人的支持与帮助,是万万不能的。



    本文转自wenglabs博客园博客,原文链接:http://www.cnblogs.com/arxive/p/7446042.html ,如需转载请自行联系原作者





相关文章
|
6月前
|
项目管理
PMP备考之路 - PMBOK第十三章(项目相关方管理)
PMP备考之路 - PMBOK第十三章(项目相关方管理)
41 0
|
6月前
|
监控 项目管理
PMP备考之路 - 汪博士第十二章(项目采购管理)(一)
PMP备考之路 - 汪博士第十二章(项目采购管理)
41 0
|
6月前
|
监控 数据挖掘 项目管理
PMP备考之路 - 汪博士第十二章(项目采购管理)(二)
PMP备考之路 - 汪博士第十二章(项目采购管理)(二)
28 0
|
11月前
|
数据库
第一遍阅读之《信息系统开发与管理》(二战)
第二次学习信息系统开发与管理,第一感觉是:必过! 信息系统开发与管理距离我们软件的具体开发很近,在我们生物专业学习过程中,有一门课程叫做《食品仪器分析》,其中有一章节的内容讲的大概是建立一个工厂的过程是怎么样的。这其中的方法和我们的《信息系统开发与管理》的内容有异曲同工之妙,我们要建立的是一个工厂,但是摆脱不了和周围事物的联系。
|
存储 Kubernetes 安全
2022系统架构师考试---冲刺文档整理
2022系统架构师考试---冲刺文档整理
205 0
|
BI
技术转正及年终工作述职报告PPT模板
技术转正及年终工作述职报告PPT模板
920 0
技术转正及年终工作述职报告PPT模板
|
XML IDE Java
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(1)
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作
109 0
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(1)
|
NoSQL 架构师 Java
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(3)
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作
157 0
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(3)
|
Web App开发 机器学习/深度学习 搜索推荐
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(2)
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作
89 0
【大学四年自学Java的学习路线】写了一个月,这是一份最适合普通大众、非科班的路线,祝你零基础快速找到一份满意的工作(2)
|
小程序 Java C#
计算机专业开题报告这么写,有效有用还能过
毕业论文题目怎样选?系统好不好弄?开题报告怎么写啊?啥也不会怎样办呢?系统运行不会?查重问题呀,要马上交开题报告了
计算机专业开题报告这么写,有效有用还能过