2016大数据创新大赛——机场客流量的时空分布预测模型解析

2017-04-05 9263

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在大数据创新大赛上，来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

在大数据创新大赛上，来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

背景介绍

65559d3b6a2eb232d3a10196f51a756e0de47f45

SeaSide团队所要解决的问题是利用机场大量的数据去预测每个时刻、每个无线AP的连接人数，这个结果可以很好的反映机场的客流时空分布。可用的数据可以分为四个方面：

历史连接：包含每个无线AP的名称、时间戳、连接人数；

地理位置：包括登机口、无线AP所在的区域、无线AP的坐标、楼层、组号；

航班排班：包括航班起降的排班信息、预计时间、实际时间；

旅客行为：包括值机、安检及离开。

算法设计

时序模型

fc44950e94692a1265eba0011845fbe8088fa7cb

最初的想法是基于历史值去预测当前值。上图左边是多天的真实值和三轴历史均值，真实值一直围绕历史均值上下波动。三轴历史均值在不同的情况下各有优缺点，把历史均值扩展为更多的聚合指标之后，在聚合窗口上就得到了基础模型。在计算聚合模型的过程中，有三种方式：同点、同时段、同组。最直接的方式就是计算同一AP点在同一历史数据点的聚合值。为了减少时间维度的噪声，可以计算同时段同一AP点的历史数据聚合值。为了减少空间维度的噪声，可以计算同组历史数据聚合值。

乘机流程

891a2053d2f378c4b39cbb392a0dba87748fe413

整个乘机的流程表明，其在值机、安检、候机、行李提取处的旅客较为密集。所以，航班的起降会对这些区域造成很大的影响。

事件驱动

edfd339b7520fb4281ac2ab0e2e4da7195bd2da7

比如，某个航班预计在某个时间起飞，可以从左上图看到大家一般会提前一个半小时安检，进入候机区等待。基于这些观察统计了右边的信息，预测时间点后面多个时间窗口上起飞航班的数量，根据这些信息可以得知每个时间段旅客起飞的人数。针对航班晚点情况，预测了滞留旅客人数。

除了起飞信息，SeaSide团队还预测了到达信息（该时间点前/后到达航班数，对接机区、中转区、取行李区影响比较大）、地理位置信息（区分特殊区域）以及时间信息（区分特殊时段，比如夜间、节假日）。

维度灾难

bd669f278d111065e1fc38c02abe438531d80f9e

上述算法利用一个模型对所有的区域进行了预测，包含了五个方面的很多特征，然而，特征越多越好吗？特征数量和预测效果的关系图如左图所示，过了临界点之后，增加特征点会使预测效果变差。现在的模型有1472个特征，需要引入合理的先验知识来有效降低维度。

a1fad827468d897ed7650009157aca3140b96a70

首先，起飞降维方面，把机场分为四个区域，对于不同区域，并不是所有起飞登机口的信息都有用。比如，对于候机区，只需要为每个AP点获取其最近的6个登机口。其余区域的降维方法如上图所示。

c21d958cd656e3e69183c549dacfb4a2deae6bb5

其次，对于时间特征，其实有序变量，与线性回归不同，它是基于高维空间划分的预测回归模型，可以对有序变量根据训练数据对其进行合理的区间划分，因此，可以看做是1维的整数。对于位置特征，分区域之后只考虑本区域组号。

d65428443690e3575a6a79e4e6cfe467720ac33f

从左图可以看出，多个无线AP在一段时间内连接数是趋于稳定的，所以在预测更短期的连接数的时候更加准确。

总结展望

模型的基础是基于历史连接数据的时序模型，加入事件驱动、降低维度进一步提升了模型。更精确的航班信息、坐标信息可以进一步提升算法。本算法可以提升网络服务、机场服务的质量。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

2016大数据创新大赛——机场客流量的时空分布预测模型解析

背景介绍

算法设计

时序模型

乘机流程

事件驱动

维度灾难

总结展望

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像