聚焦开放数据:全球恐怖袭击事件数据库

简介:

0?wx_fmt=jpeg

在Kaggle上发布数据是各个组织机构去接触形形色色对求知和协作充满热情的数据科学家的一种方式。(译者注:Kaggle是一个数据建模和数据分析的竞赛平台。企业和研究者可在其上发布数据,统计学者和数据科学家可在其上进行竞赛以产生最好的模型。)对于START(the National Consortiumfor the Study of Terrorism,研究恐怖袭击及应对恐怖袭击的全国性联盟)的Erin Miller博士而言,把START的全球恐怖袭击事件数据库(GlobalTerrorism Database:https://www.kaggle.com/START-UMD/gtd)发布到Kaggle上,让kaggle的用户来分析这些数据,能帮助他们对恐怖袭击有新的认识。


在这篇访谈里,Erin Miller博士将介绍Kaggle用户将如何在业余时间对这个涵盖了超过150,000次袭击事件的惊天数据集进行建设性的分析,从而得出可能挑战公众对恐怖袭击的认识的新见解。我们还将继续介绍更多关于全球恐怖袭击事件数据库的内容,以及如何获取和分析它的开放数据来为反恐事业添砖加瓦。


开始


在START联盟中,你的背景和角色是什么?


我(译者注:Erin Miller博士)是马里兰大学(University of Maryland)的一名刑事学家,目前任START全球恐怖袭击数据库(GTD)项目的项目经理。我从十二年前开始当助教清理这个数据库的原始数据,到现在管理着整个项目团队、工作流程、资源、以及与最终用户和相关研究项目之间的互动。


能不能跟我们介绍一下START联盟?


START是由美国国土安全部和大学计划办公室于2005年创建的一个高级研发中心(åCenter of Excellence)。这个高级研发中心的理念是为了让综合性大学里的研究者去关注与国土安全有关的问题。START的组织框架是社会科学。我们开发了一系列科研、培训和教育资源,用于对恐怖袭击的因果研究。


你能描述一下全球恐怖袭击事件数据库吗?


全球恐怖袭击事件数据库(GTD)是一个收录了全球恐怖袭击事件的数据库,最早可追溯至1970年。GTD的发展是一个漫长的历程,目前它包括了超过150,000次恐怖袭击的数据,并用超过100个变量来详尽地描述袭击发生的时间和地点,袭击者和受害者是谁,袭击者使用的策略,袭击的结果是什么,等等。所有的数据都基于未分类信息–––大部分来自媒体的报道。而且数据的收集工作还在持续地进行中,我们每年都会更新GTD数据库。


随着在线媒体的发展,我们还开发出“混合”数据收集策略。我们利用一些自动化方法(自然语言处理,机器学习模型)来筛选每个月几百万篇的新闻报道,再通过人工阅读选出来几千篇关于恐怖袭击的报道来尽可能精确地添加新的数据库条目。

 

深入数据


你希望公布这些数据给公众进行分析将如何帮助到你们的工作和这个世界?


基于原则上和实际中的一些原因,让用户了解和使用GTD一直是我们工作的一个重点。一开始我们花了几年的时间来整理和数字化成千上万条手写数据记录,从那时起我们在START网站上的GTD数据库就已经比较规范。我们发现人们对关于恐怖袭击这个热点的客观数据越来越感兴趣,而且让Kaggle这么大的数据分析用户群来使用这些数据要比我们继续像过去十年这样自己使用这些数据能产生重大发现的可能性要大得多。


此外,对于任何数据采集项目而言,透明度非常关键。其中很重要的一点是让人们可以了解到这些数据是如何采集的以及每条记录长怎么样的,这样可以增加大家使用数据的灵活性和数据本身的可信度。最后,让用户使用这些数据有利于提高数据本身的质量。改善数据精确度的最好方式就是去关注它,从而发现潜在问题以便我们审查和改进。


你们在Kaggle上分享这些数据的动机是什么?


两个原因:第一,Kaggle这个平台有一些比我们自己的系统更出色的功能。它允许用户做自定义分析,然后分享给其他用户。这个功能非常有用,能够推动更多的合作和新的发现。


第二,尽管我们在START网站分享数据已经差不多十年了,但我们的用户群体与Kaggle的用户群体似乎只有少量的重叠。可能因为我们和Kaggle的用户往往来自不同的圈子,有着不一样的技能和兴趣。Kaggle用户可能很难“偶然”发现GTD网站,那么在Kaggle上分享GTD的数据是一个让更多人去了解和使用GTD的好机会。

 

Kaggle用户群


到目前为止,你最喜欢的Kaggle用户对GTD数据的分析工作是什么?


Kaggle上已经有很多对GTD数据的分析,我们很难跟踪所有的这些分析。但这也是Kaggle的一个优点:各种技能水平的用户(包括初学者)都能在上面找到一些数据进行练习。


我特别喜欢Umesh的“使用Highcharter来探索全球恐怖袭击”的分析。(译者注:Highcharter是一个网络可视化工具Highchart在R里面的程序包。)Umesh的分析不仅使用了多种可视化工具,他的许多图表还包含了一些承前启后的要点。这表明他了对数据有着非常深入的了解。要知道用图表来总结这些数据是一件多么具有挑战性的工作。


Pranav Pandya的“世界范围内的恐怖袭击 ”项目也相当出色。尽管我对恐怖袭击的模式已经相当了解,但新用户会觉得PranavPandya对美国恐怖袭击数据的分析非常有趣(就像Abigail Larion的分析一样),因为这些结果公然挑战了大众对恐怖袭击的认知。


迄今为止最让你感到惊奇的方面是什么?


我喜欢Kaggle用户如何去激励其他的Kaggle用户参与到项目中来。我和许多出色的分析人员进行过一对一的接触,但是我的社交平台经验(好吧,主要是Twitter)是:当GTD被提及时,常常是因为人们争论恐怖袭击这个问题时,有人给出GTD的连接来试图证明他们的观点。


当人们出于兴趣(而不是作为日常工作的一部分)来研究GTD数据,他们往往变得更具积极性。我喜欢阅读来自Kaggle的关于有人试图回答另一个用户的问题或者只是评论说“你的工作超赞,谢谢!”这类的电子邮件。


如何看待利用GTD数据进行反恐行动?


GTD数据库可以通过多种形式来协助反恐行动:从提供各辖区内出现的恐吓与密谋以及它们如何随时间变化等基本信息,到更复杂的试图分析在既定情境中什么类型的反恐策略更有效。我很乐意看到GTD能为决策者提供准确且有用的数据。


关于开放数据的思考


你认为开放数据将如何改变世界?


我认为开放数据非常有用,尤其对Kaggle读者。然后我想重点讨论一下使用开放数据在这个瞬息万变的世界里的将会遇到的一个潜在问题:当这些数据被多次处理和重新发布后,用户可能无法查到数据的原出处,甚至可能想当然的接受处理后的数据。但不要忘了这就像某些经改写的新闻可能会偏离作者的原意一样,某些对原始数据的处理很可能改变了数据本身。


在过去的几年里,为了收集GTD的数据,我们幸运地得到了来自美国司法部、美国国土安全部和美国国务院的资助。但GTD的运营是一个相当劳动密集的工作,它涉及到马里兰大学的研究人员和学生。而START 是一个非营利性研究联盟。尽管GTD已被数据科学家、政策制定者、媒体、研究人员和教育工作者广泛使用,但我们并不能预测未来能否持续地获得维持数据采集的资金。所以我鼓励所有开放数据的用户:如果你觉得一个数据集有用,我建议你花点时间去了解它来自哪里。如果你发现它确实有用,请考虑给采集此数据的机构发送一条使用记录,这将帮助该机构继续获得相关部门的资助。


对于那些有兴趣学习如何分析START数据的人,你有什么建议?


我最大建议是去看一看GTD的代码书(http://www.start.umd.edu/gtd/downloads/Codebook.pdf) 。关于恐怖袭击的数据往往不是那么简单直接,GTD代码书能帮助新老用户解答很多关于这些数据的问题。


那些对数据采集感兴趣的用户还可以看看GTD的培训模块。这些培训旨在展示GTD数据库的特点以及一些需要注意的地方。此外,我们还介绍了在MS Excel中如何使用数据透视表(PivotTables)进行数据的互动演示,而这里面的原理也适用于其他分析工具。

 

原文发布时间为:2017-5-13

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
9天前
|
存储 SQL 监控
Visual Basic与数据库交互:实现数据访问和管理
【4月更文挑战第27天】本文探讨了使用Visual Basic进行数据库编程的基础,包括数据库基础、连接、数据访问技术如ADO.NET,数据绑定,事务处理,存储过程与视图。还强调了性能优化、安全性、测试与调试,以及持续维护的重要性。通过掌握这些概念和技巧,开发者能构建高效、可靠的数据驱动应用。
|
11天前
|
关系型数据库 数据库
关系型数据库的数据完整性
关系型数据库通过一系列机制和技术手段来确保数据的完整性,从而为用户提供准确、一致和可靠的数据服务。这些措施对于保障数据的质量、满足用户需求以及维护系统的稳定运行具有重要意义。
16 5
|
14天前
|
关系型数据库 Apache 流计算
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
本文介绍了如何将数据从 OceanBase 迁移到阿里云数据库 SelectDB 内核版 Apache Doris。提供 3 种数据同步方法 1. 使用 DataX,下载 DataX 并编写配置文件,通过 OceanBaseReader 和 DorisWriter 进行数据迁移。 2. 利用 Apache Doris 的 Catalog功 能,将 OceanBase 表映射到 Doris 并插入数据。 3. 通过Flink CDC,设置 OceanBase 环境,配置 Flink 连接器,实现实时数据同步。
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
|
6天前
|
DataWorks Oracle 关系型数据库
DataWorks操作报错合集之尝试从Oracle数据库同步数据到TDSQL的PG版本,并遇到了与RAW字段相关的语法错误,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
22 0
|
4天前
|
SQL 关系型数据库 MySQL
【MySQL-1】理解关系型数据库&数据的数据模型
【MySQL-1】理解关系型数据库&数据的数据模型
|
6天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在使用 DataWorks 数据集成同步 PostgreSQL 数据库中的 Geometry 类型数据如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
16 0
|
7天前
|
Java 关系型数据库 MySQL
【JDBC编程】基于MySql的Java应用程序中访问数据库与交互数据的技术
【JDBC编程】基于MySql的Java应用程序中访问数据库与交互数据的技术
|
10天前
|
存储 安全 数据管理
新一代数据库技术:融合区块链的分布式数据存储系统
传统数据库系统面临着数据安全性、可信度和去中心化等挑战,而区块链技术的兴起为解决这些问题提供了新的思路。本文介绍了一种新一代数据库技术,将区块链技术与传统的分布式数据存储系统相融合,实现了更高水平的数据安全性和可信度,以及去中心化的优势。通过结合区块链的不可篡改性和分布式存储系统的高性能,这一新型数据库技术将在未来的数据管理领域发挥重要作用。
|
12天前
|
SQL 关系型数据库 API
从API获取数据并将其插入到PostgreSQL数据库:步骤解析
使用Python处理从API获取的数据并插入到PostgreSQL数据库:安装`psycopg2`,建立数据库连接,确保DataFrame与表结构匹配,然后使用`to_sql`方法将数据插入到已存在的表中。注意数据准备、权限设置、性能优化和安全处理。
|
12天前
|
存储 资源调度 分布式计算
在分布式数据库系统中处理大规模数据
【4月更文挑战第24天】在分布式数据库系统中处理大规模数据
16 3