没资源?下一秒就可以加入的10个数据科学项目!

简介:

7b20aa678baede5aab004802b7b2d6047ebcf2c1

大数据文摘作品

编译:王梦泽、黄文畅、云舟

数据资源十分难得,分析过程更是困难重重。挖掘数据背后的意义能够帮助更多的研究者点燃数据研究的热情,也会帮助其他人入门数据分析,以下就是我们找到的十个典范。

删除Facebook页面:参与度指标和帖子@d1gi

这是一个关于数据新闻工作的案例:在2016年美国总统大选期间,有团队从Facebook挖掘了外界影响的数据,并据此与一些社会上大型的社交媒体展开了正面交锋。这场调查被包括华盛顿邮报和纽约时代周刊在内的知名媒体所收录。

这份数据是由数据新闻研究中心的Jonathan Albright为Digital Journalism提供的,是由5个宣称具有外在影响力的网页中的每一个页面上自然发言读者的帖子所构成的目录册。

它不仅保存了每篇帖子的完整文档,也揭示了除购买广告外,使用Facebook平台所能带来的其他潜在影响力。具体来说,这五个网页的内容传播力度更大。此外,这个数据集的讨论区是今年data.world里面最为火爆的。

Jonathan鼓励大家使用这个数据集来开展自己的研究和分析。这个集成数据集也展示了data.world上的其他新闻数据工作。

集成数据集:

https://data.world/gswider/data-journalism-on-data-world?utm_campaign=distinct_values&utm_source=blog&utm_medium=medium&utm_content=171229

a7dbb18fdda0cce849dcf2f734b22b9959ff364d

Jonathan制作的互动性可视化界面

数字货币的每日行情@scuttlemonkey

如果你在去年的这个时候投资了比特币,你现在可能已经赚得盆丰钵满了。但如果你没有投资,也可以在这个数据集里使用比特币后悔计算器,来得出你错过的收益。

这个项目在IFTTT使用data.world的同步程序,从Coin Metrics(一个提供可视化服务的数据聚合器)提取每日最新数字货币的数据。在此数据集的讨论区中,你可以查看十多种加密货币的价格走势及多种视觉效果图。

数据集讨论区:

https://data.world/scuttlemonkey/coin-metrics/discuss/visualizations/64263?utm_campaign=dataquest&utm_source=blog&utm_content=180122

12f4bb385fe348ed07d42200c578f2bef462ba2c

Patrick制作的数据可视化效果

联邦政府如何应对类鸦片类药物泛滥问题@usaspending

在美国,由于类鸦片类药物滥用而导致的服药过量率上升趋势令人担忧,它影响着全美成千上万的家庭。来自USAspending.gov的最新数据是由经财政部发布在data.world上的,里面包含详细的项目介绍和机构信息,你可以通过它了解联邦政府为解决这一问题所做的工作。

haotianxu91对此数据集进行了深入挖掘,并探究了能否把联邦政府提供的数据和对鸦片类药物滥用的治疗以及预防项目联系到一起。

项目详情:

https://data.world/search?q=org%3Atreasury&utm_campaign=dataquest&utm_source=blog&utm_content=180122

Data.world上公开且容易获取的数据使得美国许多州及联邦政府机构都在努力提高财政支出的责任感和透明度。输入data.world组织名称来搜索代理机构,就可能在data.world找到更多的政府数据。

data.world链接:

https://data.world/search?q=org%3Atreasury&utm_campaign=dataquest&utm_source=blog&utm_content=180122

6f760784e42471104f5bb4a682cf24a759e8ccc5

由Haotian Xu提供

关联电影数据库@linked-data

在data.world,我们认为数据在(不久的)未来是有关联的,我们十分期待看到更多的社区成员解锁关联数据的真正潜力,并且使用SPARQL—一种数据库的语义查询语言(以data.world的猫头鹰吉祥物命名)。

使用SPARQL对这组数据集进行查询再现了著名的“Kevin Bacon的六度空间”理论(“Six Degrees of Kevin Bacon” )——对于数据集中的任意两位演员,通过查询他们以前合作的搭档,你会发现他们之间所间隔的人(如果存在)不会超过六个。

只需在查询语句的第7和第8行中替换你想要查询的演员名字,然后点击“运行查询”,就可以开启“SPARQL的六度空间”了。(提示:结果十分有趣,可以多试几次。)

SPARQL的六度空间:

https://data.world/login?next=%2Flinked-data%2Flinkedmdb%2Fworkspace%2Fquery%3Fqueryid%3Db671cc87-2078-4057-b1eb-366e9c5f48e1%26utm_campaign%3Ddataquest%26utm_content%3D180122%26utm_source%3Dblog

003f804cbd85b9dda1ca8671bd11f097df9832b8

最需要帮助的飓风重灾区@alyssaanalyzes

有39个地区被列入了Harvey总统宣布的飓风多发重灾区(PDD),虽然大多数遭受到财产损失的地区都需要修复和重建的援助,但资源有限的地区在获得联邦灾难恢复项目关注后会受益更多。

SP小组识别出了那些受财产损失影响最大的社区,并将数据发布在data.world。这个项目也同样被其他一些研究者推进,在data.world搜索“Hurricane Harvey”,会出现由许多个小组成员和组织创建的几十个数据集,他们希望通过给需要的人提供容易获取的重要数据,能够为灾后重建出一份力。

Hurricane Harvey的搜索结果:

https://data.world/search?q=hurricane+harvey&type=dataset&utm_campaign=dataquest&utm_source=blog&utm_content=180122

7e8a3d04992affb4e93d5ba8cfb455903a155a29

由Alyssa制作的数据可视化效果

新泽西州法医数据@stevestirling

根据柯林字典,2017年“假新闻”一词的使用量增加了365%。尽管人们对于媒体越来越不信任,但由于数据成为了全球顶级新闻机构公信度的基石,我们终于在今年看到了新闻领域的重大转变。

这组数据来自新泽西的州法医办公室,在历经数月对记录的争论后,数据发布的24小时内,新上任的州长Phil Murphy承诺将在即将到来的立法会议上会对系统进行“全面改革”。

这个例子说明了数据新闻是如何帮助社区,甚至影响公共政策的。了解更多新泽西先锋媒体的这场耗时18个月的调查请戳—死亡与功能障碍:新泽西州是如何背弃死者,背叛生者,令国家蒙羞的。

文章链接:

http://death.nj.com/?utm_campaign=dataquest&utm_source=blog&utm_content=180122

8792d1275e03ac77e94c07f9123fdb9f65ee579d

由 NJ Advance Media报道

医药支出@data4democracy

民主数据始于2016年12月,当时全球各地的人们开始在数据相关的问题上展开合作,使用Slack进行策划,GitHub编程以及data.world共享数据。没有成文的规定也没有正式的组织,他们的目标是用最短的时间来完成真正的有效的工作。

这个数据集来自最早的一批项目,当前在全球已有2000多名电子志愿者。通过使用这个数据集和data.world R包,小组成员Jennifer Thompson可以收集一个dashboard所需的数据,创建并推出派生的数据集,并构建从站点提取实时数据的Shiny dashboard。在R Views(由RStudio编辑的R社区博客)中了解Jennifer所做的工作。

Jennifer工作内容链接:

https://rviews.rstudio.com/2017/05/26/civic-data-wrangling-in-r-and-on-data.world/?utm_campaign=dataquest&utm_source=blog&utm_content=180122

24e55a32f1f981ee937b998713cd745cbca82368

由 Jennifer Thompson开发

国家足迹账户2017年版@footprint

想知道Grenada, Guyana和Gambia这三个国家的共同之处吗?它们都在全球足迹网(Global Footprint Network)的最小生态足迹名单之上。

全球足迹网(Global Footprint Network)的国家足迹账户 (NFAs) 记录了自1961年起生态资源使用情况以及各国的资源承载力。该组织在data.world上发布了2017年版的数据,对其进行分析后,可以帮助我们更好的了解经济发展与自然资源消耗之间的联系。

加入全球足迹网减少我们2018年的生态足迹,从计算自己的生态足迹来开始你的第一步吧!

全球足迹网:

http://www.footprintcalculator.org/?utm_campaign=dataquest&utm_source=blog&utm_content=180122

1dc6f21c51e5178ccba2c556d749635e86139a5e

Tableau Desktop数据分析入门@tableauhelp

TableauHelp的教程能够帮助人们学习使用Tableau。数据项目包括指南、教程和练习,通过一个模拟练习来学习有关商业数据分析和可视化的基础知识。

学习在Tableau创建各种视图来研究数据链接:

https://data.world/login?next=%2Ftableauhelp%2Ftableau-desktop-101-step-into-the-shoes-of-a-data-analyst%2Fworkspace%2Ffile%3Ffilename%3D01_lets_get_started.md%3Futm_campaign%3Ddataquest%26utm_content%3D180122%26utm_source%3Dblog

849805e5a9ec52e41da6a2baf4c18de50f01a9ff

TableauHelp提供的教程

人群百态@makeovermonday

社会数据项目周一大改造(Makeover Monday)的成员每周一会发布一条图表和其数据的链接,图表可以经由社区重新绘制。无论是简单的条形图还是复杂的信息图,他们都鼓励每个人参与进来。

链接:

http://www.makeovermonday.co.uk/

8608f2507d85c96e70ff99f1bc942ea67c46ab37

原文链接:

https://www.dataquest.io/blog/10-data-science-projects-join/


原文发布时间为:2018-03-27

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号


相关文章
|
27天前
|
机器学习/深度学习 数据采集 人工智能
机器学习PAI常见问题之多worker卡会报错如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
6月前
|
Cloud Native 算法 Go
面试中的时间管理:如何在有限时间内展示最大价值
面试中的时间管理:如何在有限时间内展示最大价值
69 0
|
8月前
|
容灾 网络协议
极客时间架构实战营模块 7 作业
极客时间架构实战营模块 7 作业
57 0
|
机器学习/深度学习 搜索推荐 数据挖掘
24个终极数据科学项目(可免费获取资源)
本文精选了24个数据科学项目,并囊括了各个领域和各种不同大小的数据集。另外,所有的数据集都是开源、可免费获取的。
6645 0
|
机器学习/深度学习 数据采集 安全
数据科学项目失败的八个原因
数据科学可能是解决业务问题的最热门工具,但存在缺陷的项目可能会造成重大损失,并导致决策者误入歧途。
378 0
|
数据格式 数据挖掘 存储
带你读《R数据科学实战:工具详解与案例分析》之二:数据清理工具
本书共11章,前6章主要介绍和讨论使用R语言的一般流程以及常用的R包;第7~11章,包含了5个实战案例,通过与前6章的内容相结合,展示如何使用这些R包。复现书中的代码需要读者对.Rproj有一定的了解,建议读者参阅网络教程学会使用.Rproj。使用.Rproj的原因在于其可以将每一次数据分析或练习都视为一个独立的项目(不必调用setwd函数重置工作路径),这样做不但可以减少代码出错的几率,而且还能更利于进行数据管理。
|
机器学习/深度学习 人工智能 自然语言处理
学习机器学习和数据科学必看的十个资源
步入寒冬,这里有份关于机器学习和数据科学学习的必看资源总结可供学习,快来瞅瞅吧。
3086 0
|
机器学习/深度学习 数据可视化 数据挖掘
|
机器学习/深度学习 人工智能 自然语言处理
一份帮助你更好地理解深度学习的资源清单
深度学习朝着可解释的方向发展,理解背后的基本原理显得更加重要。本文是一份帮助读者更好地理解深度学习基本过程的清单,便于初学者和部分起步者针对性地补充自己的知识体系。
3059 0

热门文章

最新文章