当空间数据遇上机器学习,城市的颜值有了新的度量方法

简介:

每个人都生活在一定的空间,城市的各项公共服务设施也需要占据一定的空间。通过对这些空间数据的挖掘和分析,我们能够比以往更科学、更清晰地观察我们所在的城市。

把机器学习应用到空间数据挖掘

我们公司主要做的是空间数据挖掘,在国内外,类似的公司目前并不是很多。后面要提到的很多案例,图表颜色看起来花花绿绿的,其实都是基于我们自己的产品和研究做出来的。

下面这张图算是我们的代表性产品之一,这张图的左上角区域是它的地图区域,左下角区域的折线图反映的是一些数值、特征值,右侧则是测试参数的设置、提交运算的区域。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

虽然我们用了很多机器学习算法或者空间挖掘的一些算法,但是你会发现,操作起来还是非常简单的。

有人会问我们的数据来源是哪里?

我们和各种数据供应商有密切合作,有20多个大类、1000多个小类的POI兴趣点。除此之外,我们还获得了一些人口迁徙、房地产、企业等各类数据。

在进入具体的案例分析前,需要指出的是,这些案例都是基于城市各维度做的一些分析,而在这其中,机器学习扮演着重要的作用。结合具体的一个个案例,让大家对空间数据挖掘有一个更清晰的认识,这也是我今天要分享的主题。

案例一:通过机器学习给城市“画像”

先看下面这张图:

当空间数据遇上机器学习,城市的颜值有了新的度量方法

在这张图中,我们通过各种POI兴趣点的数据,用可视化来描绘城市用地情况。图中的各个分类其实我们都提前选好了参数,再利用机器学习自动分类。然后再选好用哪些维度来给城市“画像”。

从图中可以看到哪些区域是休闲娱乐休闲功能比较集中的地方、哪些是居住比较集中的地方、哪些是混合型的地方,以及能看出哪里是工厂、工业集聚区。通过这样分类,我们可以快速了解这些用地的分布情况。

接着再看第二张图。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

这张图是基于上一张图的数据,我们做了更进一步的聚类,你会发现城市里边的用地情况显得更加清晰一些。

我虽然没有去过南昌,但是通过这张图我可以很容易分辨出来哪里是老城区,哪里是新城区,哪里是边缘的工业用地区,哪里可能是新开发的居住区等等。

案例二:发现北上广深地铁站周围的画风

可能前面两张图因为涉及到具体的业务应用场景,对于非土地研究行业的人来说可能相对较难理解。但下面这个例子会更好理解一些。

我们同样用机器学习的算法,通过POI兴趣点数据来识别一下北上广深四个城市的地铁站周边500米的情况。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

可以看到,北上广深四个城市的差异还是非常明显的。

比如说北京,一眼望去,绿色的圆点较多,这代表的是其周围公共服务设施比较集中。这些公共服务设施包括政府机关办公地点、图书馆、文化场馆等等。

再看上海,蓝色的圆点比较多,这指的是地铁站周围各种居住小区较多。

而广州,红色和紫色的圆点更多,这指的是地铁站周边娱乐休闲类场所更多。从这些地铁站出来,更容易找到吃喝玩乐的地方。

深圳,则算是比较均衡的,不同颜色的分布并没有一个明显的特征。

案例三:从公共交通扩张看一座城市的“生长”

前面介绍的都是城市中的土地利用情况分析,接下来讲一讲交通等城市公共服务设施的情况。

这里以武汉市为例,下图可以看到2014年到2017年它的轨道站点数量增长非常快。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

再来看公交站点的情况:从2014年的接近3000个到2016年3500多个,一直到2017年有将近5000个了。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

然后我们把轨道交通的站点和公共交通的站点,聚合到城市用地上,这可以看做是公共交通的便捷度评价指标,可以看出这几年武汉市的公共交通便捷度确实发生了很大变化。

当空间数据遇上机器学习,城市的颜值有了新的度量方法

紧接着,我们再通过机器学习方法,研究武汉市的公共服务设施的分布变化。见下面两张图:

当空间数据遇上机器学习,城市的颜值有了新的度量方法

当空间数据遇上机器学习,城市的颜值有了新的度量方法

从这两张图我们可以看到,从2014年到2017年,随着公共交通便捷度的不增增加,武汉市的土地利用的混合程度也发生了大量变化。原来可能没有那么多POI兴趣点,但现在人的活跃地点增加了。

上图还能发现,随着公共交通的发展,武汉市的单一类型的用地是逐渐减少的。

通过这个研究,我们得出来的结论是,随着城市公共交通便捷度的增加,城市内部的活力也在逐渐增加。

案例四:通过OD数据和手机信令观察城市内部联系

下面再来举两个机器学习在研究城市通勤方面的具体例子。

首先来看我们队深圳出租车OD(从起点到终点)路径的分析图:

当空间数据遇上机器学习,城市的颜值有了新的度量方法

我们拿到了深圳市的出租车运行轨迹数据,然后利用机械学习帮我们分辨出深圳市出租车的OD数据模式,机器自动帮我们分出来非常显着的两个类型:左边呢,是早高峰的时候,你可以看到车流从北到南的比较多,右边这张绿的的图则是晚高峰的时候,从南到北的比较多。

通过这个分析,我们不仅了解到深圳居民乘出租车的模式,还能发现深圳市的南北向交通可能是有不足,而深圳市的公共交通现在是东西向的较多。

为什么会有这样的结论?因为出租车往往是人们公共交通出行的一种补充,只有在公共交通可能不太方便的时候,人们才会选择出租车多一点。

再来看看上海居民的通勤情况。这里我们是基于手机信令数据做了各区域间联系强度的分析,其中的色块代表着不同的分区:

当空间数据遇上机器学习,城市的颜值有了新的度量方法

大家可能对手机信令不太了解,这其实是反映人们出行或者活动的轨迹。我们一般使用手机的时候,运营商每隔一段时间,会对你的手机进行一次定位,然后运营商会判断你处在哪个基站的服务范围。

如果你前一个时刻在A基站服务范围内,然后后一个时刻又到了另外一个基站服务范围,说明你在移动,我们就可以判断你是从A点移动到了B点,所以能够反映人的出行规律。

然后我们用这样的数据做了上海市的分区,这些不同的色块代表的我们通过这些数据算出来的联系强度。

从上图中,我们发现了一个非常有意思的现象:在上海市范围内,奉贤、金山、松江等远郊地区,你会发现它的分区和它的行政边界是比较吻合的,这就说明这些郊区的居民一般都不太会来中心城区活动,而是在自己的行政区范围内活动。

而你看那些越靠近中心城区的地区,分区的划分跟它的行政边界的关系就会越不一致。比如说宝山区,可以看到这里的居民在杨浦区很活跃,是不是说明有很多在杨浦区工作的人居住在宝山呢?

此外,当我们按照人的出行规律进行分区之后,还可以把区和区之间的联系强度用可视化的方式展现出来:

当空间数据遇上机器学习,城市的颜值有了新的度量方法

上面的案例,主要是介绍了我们目前在利用机器学习进行空间数据挖掘方面的一些具体尝试,我们希望能够提供一个一站式的空间数据挖掘平台,既有数据,又有空间数据处理的工具,服务更多的数据人。 


原文发布时间为:2017-10-18 

本文作者:佚名

本文来自云栖社区合作伙伴“51CTO”,了解相关信息可以关注。

相关文章
|
2月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
78 1
|
2月前
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
54 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
62 2
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
30 1
|
6天前
|
机器学习/深度学习 数据可视化 前端开发
【Python机器学习专栏】机器学习模型评估的实用方法
【4月更文挑战第30天】本文介绍了机器学习模型评估的关键方法,包括评估指标(如准确率、精确率、召回率、F1分数、MSE、RMSE、MAE及ROC曲线)和交叉验证技术(如K折交叉验证、留一交叉验证、自助法)。混淆矩阵提供了一种可视化分类模型性能的方式,而Python的scikit-learn库则方便实现这些评估。选择适合的指标和验证方法能有效优化模型性能。
|
6天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】Python中的特征选择方法
【4月更文挑战第30天】本文介绍了机器学习中特征选择的重要性,包括提高模型性能、减少计算成本和增强可解释性。特征选择方法主要包括过滤法(如相关系数、卡方检验和互信息)、包装法(如递归特征消除和顺序特征选择)和嵌入法(如L1正则化和决策树)。在Python中,可利用`sklearn`库的`feature_selection`模块实现这些方法。通过有效的特征选择,能构建更优的模型并深入理解数据。
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
【Python 机器学习专栏】数据缺失值处理与插补方法
【4月更文挑战第30天】本文探讨了Python中处理数据缺失值的方法。缺失值影响数据分析和模型训练,可能导致模型偏差、准确性降低和干扰分析。检测缺失值可使用Pandas的`isnull()`和`notnull()`,或通过可视化。处理方法包括删除含缺失值的行/列及填充:固定值、均值/中位数、众数或最近邻。Scikit-learn提供了SimpleImputer和IterativeImputer类进行插补。选择方法要考虑数据特点、缺失值比例和模型需求。注意过度插补和验证评估。处理缺失值是提升数据质量和模型准确性关键步骤。
|
6天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】Python中的机器学习评估与度量指标
【4月更文挑战第30天】本文介绍了Python中机器学习模型的评估方法和度量指标。主要包括留出法、交叉验证和自助法等评估方法,以及准确率、精确率、召回率、F1分数、AUC-ROC曲线、MSE、RMSE和R方值等度量指标。选择合适的评估标准对于理解模型性能和适应不同任务至关重要。
|
8天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之在使用DSSM负采样时,不知道label_fields的配置方法如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
20天前
|
机器学习/深度学习 大数据
如何通过评估方法评估机器学习模型的性能
如何通过评估方法评估机器学习模型的性能
9 0