2016大数据创新大赛——机场客流量的时空分布预测模型解析

简介: 在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

背景介绍

65559d3b6a2eb232d3a10196f51a756e0de47f45

SeaSide团队所要解决的问题是利用机场大量的数据去预测每个时刻、每个无线AP的连接人数,这个结果可以很好的反映机场的客流时空分布。可用的数据可以分为四个方面:

历史连接:包含每个无线AP的名称、时间戳、连接人数;

地理位置:包括登机口、无线AP所在的区域、无线AP的坐标、楼层、组号;

航班排班:包括航班起降的排班信息、预计时间、实际时间;

旅客行为:包括值机、安检及离开。

算法设计

时序模型

fc44950e94692a1265eba0011845fbe8088fa7cb

最初的想法是基于历史值去预测当前值。上图左边是多天的真实值和三轴历史均值,真实值一直围绕历史均值上下波动。三轴历史均值在不同的情况下各有优缺点,把历史均值扩展为更多的聚合指标之后,在聚合窗口上就得到了基础模型。在计算聚合模型的过程中,有三种方式:同点、同时段、同组。最直接的方式就是计算同一AP点在同一历史数据点的聚合值。为了减少时间维度的噪声,可以计算同时段同一AP点的历史数据聚合值。为了减少空间维度的噪声,可以计算同组历史数据聚合值。

乘机流程

891a2053d2f378c4b39cbb392a0dba87748fe413

整个乘机的流程表明,其在值机、安检、候机、行李提取处的旅客较为密集。所以,航班的起降会对这些区域造成很大的影响。

事件驱动

edfd339b7520fb4281ac2ab0e2e4da7195bd2da7

比如,某个航班预计在某个时间起飞,可以从左上图看到大家一般会提前一个半小时安检,进入候机区等待。基于这些观察统计了右边的信息,预测时间点后面多个时间窗口上起飞航班的数量,根据这些信息可以得知每个时间段旅客起飞的人数。针对航班晚点情况,预测了滞留旅客人数。

除了起飞信息,SeaSide团队还预测了到达信息(该时间点前/后到达航班数,对接机区、中转区、取行李区影响比较大)、地理位置信息(区分特殊区域)以及时间信息(区分特殊时段,比如夜间、节假日)。

维度灾难

bd669f278d111065e1fc38c02abe438531d80f9e

上述算法利用一个模型对所有的区域进行了预测,包含了五个方面的很多特征,然而,特征越多越好吗?特征数量和预测效果的关系图如左图所示,过了临界点之后,增加特征点会使预测效果变差。现在的模型有1472个特征,需要引入合理的先验知识来有效降低维度。

a1fad827468d897ed7650009157aca3140b96a70

首先,起飞降维方面,把机场分为四个区域,对于不同区域,并不是所有起飞登机口的信息都有用。比如,对于候机区,只需要为每个AP点获取其最近的6个登机口。其余区域的降维方法如上图所示。

c21d958cd656e3e69183c549dacfb4a2deae6bb5

其次,对于时间特征,其实有序变量,与线性回归不同,它是基于高维空间划分的预测回归模型,可以对有序变量根据训练数据对其进行合理的区间划分,因此,可以看做是1维的整数。对于位置特征,分区域之后只考虑本区域组号。

d65428443690e3575a6a79e4e6cfe467720ac33f

从左图可以看出,多个无线AP在一段时间内连接数是趋于稳定的,所以在预测更短期的连接数的时候更加准确。

总结展望

模型的基础是基于历史连接数据的时序模型,加入事件驱动、降低维度进一步提升了模型。更精确的航班信息、坐标信息可以进一步提升算法。本算法可以提升网络服务、机场服务的质量。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 大数据 数据库连接
maxcompute开发环境问题之参数解析失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
4月前
|
存储 数据采集 运维
大数据相关各职位解析
大数据相关各职位解析
40 0
|
5月前
|
存储 分布式计算 Hadoop
【大数据】Hadoop技术解析:大数据处理的核心引擎
【大数据】Hadoop技术解析:大数据处理的核心引擎
148 0
|
6天前
|
存储 人工智能 编译器
存算一体新兴力量:解析我国企业在存储创新、技术路径上的多元化探索
存算一体新兴力量:解析我国企业在存储创新、技术路径上的多元化探索
|
15天前
|
测试技术 API 智能硬件
语言模型在提升智能助手引用解析能力中的创新应用
【4月更文挑战第4天】苹果研究团队推出了ReALM,一种利用大型语言模型解决引用解析的新方法,提升智能助手理解用户意图和上下文的能力。ReALM将引用解析转化为语言建模问题,尤其擅长处理屏幕上的实体,比现有系统提升超5%,性能接近GPT-4但参数更少。其模块化设计易于集成,可在不同场景下扩展。然而,复杂查询处理和依赖上游数据检测器可能影响其准确性和稳定性。
63 6
语言模型在提升智能助手引用解析能力中的创新应用
|
1月前
|
分布式计算 NoSQL 大数据
探索数据宇宙:深入解析大数据分析与管理技术
探索数据宇宙:深入解析大数据分析与管理技术
55 1
|
4月前
|
存储 缓存 分布式计算
【云计算与大数据技术】Spark的解析(图文解释 超详细必看)
【云计算与大数据技术】Spark的解析(图文解释 超详细必看)
89 0
|
4月前
|
设计模式 缓存 安全
二十三种设计模式全面解析-从线程安全到创新应用:探索享元模式的进阶之路
二十三种设计模式全面解析-从线程安全到创新应用:探索享元模式的进阶之路
|
4月前
|
存储 人工智能 监控
日志服务 SLS 深度解析:拥抱云原生和 AI,基于 SLS 的可观测分析创新
阿里云日志服务 SLS 全面拥抱云原生和 AI,近一年持续进行技术创新,此次云栖大会上发布了在稳定可靠、高性能、开放易用、AI 加持、低成本等五个方面的全面升级。
101984 4
|
5月前
|
数据采集 人工智能 安全
AI驱动的大数据创新:探索软件开发中的机会和挑战
AI驱动的大数据创新:探索软件开发中的机会和挑战

推荐镜像

更多