南方航空:大数据与移动应用

简介:     在“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”上,中国南方航空股份有限公司信息中心技术总监龙庚先生做了“大数据与移动应用”的演讲。他为大家介绍了南方航空在大数据与移动应用方面的实践,特别是基于微信的服务;并为大家分享了南航移动化、社区化、开源化和虚拟化的技术方向。
0.jpg

    在“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”上,中国南方航空股份有限公司信息中心技术总监龙庚先生做了“大数据移动应用”的演讲。他为大家介绍了南方航空在大数据移动应用方面的实践,特别是基于微信的服务;并为大家分享了南航移动化、社区化、开源化和虚拟化的技术方向。内容如下:


   首先特别荣幸能站在这里给大家分享南航大数据的应用。上午的会议,邬院士提到南航787每飞一趟来回产生的数据就是几个TB,380数据有30亿行代码,每30分钟就产生10TB的数据。南航除了飞机会产生巨量的数据,还有很多方面,包括一万多名的空姐,她们的排班组合也是数据的应用,以及飞行人员,还有一两万人地面人员的排班数据。另外,南航每一种新技术基本都是最开始引领做的,也产生了大量数据。今天我要分享的是,我们是怎么结合各个服务节点以及最新的移动应用,以及信息化研究的策略,怎么来把大数据用得更好。过去,这些数据就存在那里,但是我们没有把它用好。因此今天就讲几个例子,看看我们是怎么来利用南航的大数据


   首先,简单介绍南航信息化的情况。


   南航在飞机架数上国内领先,第一位,在世界上排第五,我们第一引进380、787的航空公司。旅客运输量位居世界前五名,在全国排名第一,在这两个方面来讲,南航是最大的航空公司。我们自身的研发力量也是有着不小的队伍,我们有1200人专业的IT队伍来研究IT系统、数据利用。同时,特别成立了信息公司,面向市场化运作的,解决原来国企的效率问题。我们新成立的信息公司有两年左右,现在有500多名研发人员,信息中心以及47个分/子公司,还有全国各个地方的维护人员。我们新成立的公司,主要是集中在南航企业的,ERP,包括企业CRM等等这些的利用,以及电子商务、运行等等,目前我们的主要精力还是面对南航,但是逐渐也跟其他航空公司进行合作。在技术上,我们特别关注开源、大数据、移动、微信方面的方案。


   对我们来说,在新技术上一直希望把它转变成数字化的方式,所以南航也是第一个发明“电子客票”的公司,所以现在大家不需要拿纸票可以值机,包括电子值机等也是我们最先推向市场的。南航信息化工作有“一二三四五”策略。我这里主要强调四和五,我们强调的技术方向,包括移动化、社区化、开源化、虚拟化。五大数据核心,南航有一百多个系统,我们通过建立数据核心的方式把所有数据集中写到这个核心当中,我们也学习淘宝开源化的架构解决大规模的读写、分析、研究问题,所以我们提出大数据核心,南航就建立了“五大数据核心”,包括跟飞机相关的,飞机每个部件故障维修,包括COD、SVC(所有旅客资料库)、CBD(所有南航旅客行为数据,每个旅客坐过我们的飞机、享受过我们的服务,我们都会记录下来),还有我们的产品,将南航所有营销的航线、产品都会放在产品数据库里,以及财务数据库。这对我们来讲,我们的数据存储就是通过这种方式。


   以上的部分让大家了解南航信息化的思路。第二个部分,讲一下我们怎么将服务跟大数据、移动化结合起来。今天上午嘉宾分享的观点让我很振奋。我要分享的是,从我自己亲身经历来分享现在面临的大数据跟前面有什么区别。我是比较喜欢玩新的移动工具,包括微信。最早,比如说智能手机出来的时候,我就参与过桌面插件、菜单部门的研究。后来我们也参与黑霉的,到现在苹果出来彻底改写移动化的世界,大家在上面可以用到很多的Apps。三星现在N9的系统很快超过了苹果的发展,这就代表着开放手机平台以及封闭平台之间的竞争。接下来,我们还有很多的平板,比如说两年前我们做移动系统的时候,当时平板很少,只有苹果的平板我看得上,其他一律看不上。而现在各个公司出的平板特别多,包括英特尔前两天给我送了两台测试机,X86的平板,速度也是非常的快。


   其实好多人也非常关心健康。现在手环包括佩戴在身上的检测仪器,我估计将来体检都不用跑到医院去。这是一个非常火的手环,它每时每刻收集的数据也非常多。包括Google眼镜,戴着眼镜就可以随便拍照,可以通过声音来控制它。移动设备产生的数据真的是非常巨大。以前我只要几十兆流量就可以了,而现在我有三张卡,每个月每个卡消耗3个G。包括移动用户已经超过了桌面互联网的用户。特别是在中国,移动互联网、微信包括用户数就已经超过了美国。前两年我还在开玩笑说,我一个朋友做微信,他说把研发中心放在硅谷了,我就在想,我们中国做微信会更好,为什么要把研发中心放在那边。我觉得我们从移动互联网来讲一点不落后于美国,包括我们的一些移动设备,像华为把很多通信供应商抛在后面了。所以为什么刚才胡会长也说到,为什么美国没有那么热而中国那么热,这是因为在这个方面中国已经走在前头了,并不是说美国不关心这个东西,而是我们中国现在产生的数据,比如淘宝、华为,还有微信这类的数据,因此中国会更加关注大数据


   人、设备、感应器产生了大量的数据,产生的数据可以从几个维度看,一个是结构化的、一个是半结构化的、一个是非结构化的。传统讨论更多的是结构化的数据领域。刚才也讲到了,数据量大、价值密度低,其实我想强调的是,我们更加要想到一个方面是,这么多的数据怎么将它挖掘出来。从另外两个维度也可以给大数据分类,一个是对大交易数据的处理,一个是大交互数据的处理。这两者完全不一样。大部分企业对于交易数据有BI,但是对于大交互数据没有太多解决方案。另外一个方面是,我们在利用大数据的时候,其实有很大的一点是,我们讲的大数据的集成与融合,再多的数据放在备份里不用,对你也没有价值。还有各个系统,比如我们有一百个系统,这些系统不集成整合起来是没有用的。因此南航这三四年干了一个很大的事,就是把原来很多采购系统全部重建,重建之后建立五大数据库,把这些大数据整合起来、融合起来,接下来才谈到大数据的处理与分析。

我先讲一下交易类大数据的处理趋势。


   主要以互联网为首,特别是淘宝、天猫、阿里集团。还有中国移动,他们也开始采用一些新的技术。在过去,主要是移动门户,包括:新浪、百度,特别是淘宝、京东这些巨头。像淘宝最早用的是Oracle,后来它的数据超过60个PB,连Oracle都解决不了它的问题,后来他们就采用其他的方法。可能传统企业还没有这种体会。我们是一直在研究这块,有些方面也取得了一些成果。以前,交易类数据主要是分析、事务、互联网,OldSQL。而很长一段时间谈NoSQL。为什么NoSQL走进不了传统企业?一个是传统企业在解决能力方面偏低,另外就是很多的东西要保证它的事务性比如说买一个票进行支付,这些事务如果断裂的话对旅客、航空公司都是损失,所以一直解决不了这个问题。而现在有一种新的SQL出来,叫做NoSQL。目前支付这块还是用Oracle。但是他们研究了新东西,这些特点都具备,来解决他们的问题。


   NoSQL,最早用的最多的是Key/Value,从缓存到又可以结合磁盘方式缓存,所以它的查询特别快,提高附载,特别是在日志上的应用。另外就是列式存储,它可以横向无限扩展,代表的是GoogleBigTable、HBase,查找速度快,可扩展性强,更容易进行分布式扩展,典型应用包括汇总统计和数据仓库。其他的还有文档式存储,比如说产品描绘维度、变化,包括会员,不同渠道它的维度不一样,那么我们就用MongoDB,处理结构化和半结构化之间的数据。还有一些是图形的,这块我们研究的少一点。


   像现在的市场上,这个(PPT)有点老,我们用到的Mongo都是一些新的技术。现在NewSQL也有一些新的产品,包括HBase,扫描速度都是非常惊人的。国外也有一些产品,都推出了基于现代交易型数据的解决方案。NoSQL主要是BigTable、HBase为代表。


   接下来我们看交互性数据的处理。


   现在给南航的服务评价渠道就有很多。有的人在微博上发表、有人用微信。我们也要去监控、了解这些数据。这些数据就是对交互性数据、非结构化数据的处理。现在也有很多技术,比如这有一个例子,它可以通过一段文字、网页进行中文分词的处理,然后进行打标签进行序列分析、趋势分析等等。就像把我们官网用户所有的点击集中起来之后可以把它序列化,比如说用户从进来到退出都做了什么东西,他的思路流程是怎么样的。现在有一些开源技术,有一个叫UIMA,就可以对非结构化数据,分析出主谓宾,看你是正面抱怨还是负面抱怨。这有一个例子,分析互联网上的舆情来看大家对于汽车的抱怨,我们可以分析出来哪个时间段、哪个品牌汽车抱怨是最多的,还可以分析出某一个时间段之内人家抱怨集中在哪个部件,比如说是发动机还是轮胎。这就是对于内容的挖掘,从互联网的舆情来进行分析的例子。


   另外,我们也在研究对超大型、巨型数据的处理。包括基于Hadoop的数据处理。今天上午邬院士也讲到一些,包括超大数据存储,还包括基于Reducers的分布式计算,对于大数据也有一整套方案,而且现在越来越趋向于开源大数据平台。


  讲了那么多的理论、技术,下面讲一下南航在大数据这块的策略。


   南航到现在为止对交易性数据做的多一点,所以我们前期策略,一个是将大数据打通、整合到一块,利用商业智能通过移动化设备把这些数据,包括数据分析,直接传递到移动端,从而提高服务和营销。


   对于非结构化的,我们也再做研究。我们还成立了开源实验室去研究这些数据。举个例子,比如以前发展会员,都是在机场问人家是否要加入我们的会员。因为有了数据之后,比如我们坐飞机的时候,他会告诉你,欢迎您乘坐南航的飞机,以前可能您坐其他航空飞机多一些。我们通过这些旅客的数据分析看这个是不是我们的潜在客户,然后有针对性的发展。同时我们对每个旅客都有“价值模型”,定义旅客的价值,比如你是普通旅客、潜在会员还是活跃会员、精英会员,我们针对精英会员有一些特定的措施,针对活跃会员有一些促销手段,等等。这就是对于旅客每次乘机情况进行分析得出来的。


   这个例子,我们可以分析旅客乘机的总数是多少。消费金额多少次,对南航贡献有多少。也许您没有搭过我们的飞机,但是我们可以搭建虚拟帐号,进行里程、价值估算,如果您达到某个程度我们会送个金卡会员或者其他卡会员给你。这是精准营销的例子。


   我们后台有多个服务系统来收集信息,比如您在买票的时候、客舱情况、基本资料等等,我们会将这些信息集中起来。这个例子就是我们的客舱移动服务系统。我们的空姐、机长,给他们都发了iPad,这个可以了解到所有旅客信息,照片也有,包括他的生日以及他过去的消费历史,我们会根据这个来跟旅客进行接触。特别是头等舱,我们乘机长面对的都是不认识的VIP,我们怎么跟他拉近距离呢。同时我们还做了一些好玩的东西,有利于乘机长跟头等舱乘客拉近距离。这就是通过移动方式把精准化的服务信息放在iPad上,同时对每个高端旅客还有服务单的方式,比如说给这个旅客送生日礼物,在iPad上都可以看到服务的工单给到空姐。

这个系统2008年就做了,当时没有iPad,我们用的是惠普的PDA,2009年改用昂达的,后来就大规模推广iPad,其中推广比较大的是三星N9出来之后。现在这个系统就有15300台在投入使用。而我们公司实际上发的只有3300台,剩下的都是BYOD的方式。


   我们提供的信息包括旅客头像,这个照片是在安检时拍的。还有中转信息,比如说中转下一个航班差多久,空姐就可以看得到,我们会把一些相关信息传递上去,这样有利于空姐跟地面直接联系,把我们的旅客安排好。


   这是我们在移动端利用大数据的例子,当然还有很多方面了。下面我再举一个后台运作的例子。我们建立了一个SCC的系统,主要是基于被动式服务模式向基于工单主动服务模式转变。因为靠计算机还是有很多东西不一定是自动就完成、做得到的,所以我们专门有个团队,对于计算机判断生成工单位,有些是基于人工判断,比如说他们收集旅客在各个环节的一些数据,然后会生成一些工单,员工可以拿着移动设备看到这些工单。这就是SCC要做的事。为此我们改组了这些环节上的所有软件,为了配合SCC。


   我们还有HCC,就是飞机进场、维修等等,也是基于数据中心来分析。SCC要做的事,一个是外部数据采集,比如说通过百度可以搜索到一些客户信息,我们要了解你,点一个键就可以把你所有的数据拿出来,就知道你的职位等相关信息。第二就是解放方案中心,就是个性化定制化服务流程,对客户一对一进行服务。比如说他是回族的国务院领导,那我们一定要在各个环节对他的服务,以及对于服务单的下发还有反馈、考核。另外就是内部信息的整合、维护,包括客户档案、客户行为、航班详细信息、中转信息维护。这是我们在后端对于大数据人工参与在服务流程上的改造。


   接下来讲一下南航的技术思路。我们成立了开源实验室,开源实验室负责研究南航的开源技术架构,同时也对Hadoop等大数据架构进行研究,我们现在有四百多个人,他们的研发都是使用开源的技术,包括我们也通过这个节省了大批的License采购费用。到2012年节省了2400多万。主要是中间件、操作系统,我们采用Linux。还有规则引擎也做了改进。这是测试出来的结果,我们用的是两台MySQL写,三台MySQL读,远超过小型机出来的性能。8月份在三亚的IPv6会还会对这个做演示,如果去到那边的朋友可以看看性能的对比。


   现在我们形成了一套体系,包括Linux等开源架构。以前很多数据备份到磁带上,需要的时候才会去管。我们跟淘宝、天猫、腾讯经常交流,也会请淘宝的架构师给我们搭建、建立大数据的环境。另外还专门成立了研究院,这个研究院级别比较高,是我们CIO亲自担任院长。比如说我们会分析每一个航班信息,通过对数学模型研究,攻破了民航业界运筹学经典难题--机组自动排班和机组自动搭班。因为有些航班是大家不愿意飞的,有的是大家抢着分的,我们要充分体现公平性,也要考虑到大家的休息时间。这些都通过研究院研究。这个研究院从一些大学请到了算法研究的博士进行研究。这是对网络造成巨量数据的分析和预测的处理。这个算法模型还申请了国家专利。以前都是汉莎才有这些技术,要买他的会非常昂贵,现在我们用这套技术已经全部替换掉了。


   这里还要说到移动化跟大数据的结合。我讲的主题是移动化和大数据,所以有一个专题我再快速过一下移动化这块的东西。


   首先讲一下南航最新推出的微信。如果去搜“南航微信”,我想这个案例最近是比较火热的,因为我们也是最早做这块的企业。最早在1月30号之前就在推广它,到1月31号正式对外发布。现在的粉丝数已经达到60万左右。推出的服务也囊括很多,包括订票、办理登机牌、货单查询等等。如果大家上这个网,可以看到腾讯把我们排到第一页来做介绍。当然早期腾讯也给了我们很多支持。


   我们推出来了一段时间,用户数还不是很多,因为微信不太强调用户数,更强调的是用户黏性。当时南航决定做这个,也是由于微信的广阔用户数,这是一个重要的移动门户的入口。对于今天的南航而言,微信的重要程度,等同于15年前南航的官网。


   同时我们在服务平台也做了很多工作。第一个就是官网,已经有十几年了。还有“95539”,后面有一个智能引擎,电话一打进来,如果你是会员,所有信息就会调出来。如果你不是会员,我们也会从网上抓取介绍,给到呼叫中心的人员去看。第三个平台就是短信。你可以直接输入一个自然语言,比如说“明天我从广州到北京有没有空位”,我就会自动解析识别语言,给你回复。还有我们推出了移动应用,苹果一来中国的时候我们就推出苹果版,Windows8发布的时候,我们也跟微软同时发布,微软推广时也讲到我们南航的移动应用。还有三星,他们也在不同场合展示跟我们一起做的应用。接下来就是微信,微信是这半年特别火的。我在上个月和这个月讲了很多微信专题的分享会。


   南航对于微信的定位是这样的,从6月5号曾鸣说“微信不是一种营销工具”。我们一直没有怎么做营销,更重要的是把它当做工作和服务的方式。如果大家没有加过我们的微信,可以通过扫描二维码加入。对于服务来讲,我们把南航选座位的服务放在微信上,还有把所有官网和移动应用上能够在微信上做的一些应用都逐步的移到微信上,同时提供。比如说沟通的方式,你加了之后可以通过语音方式跟它语音对话,我问北京的天气或者里程数或者展示会员卡信息,都可以通过文本、语言方式跟账号进行沟通。我们还有一个有意思的应用叫做“南航西西”,以前要通过登陆10个系统了解信息,现在通过微信就可以知道,比如说有哪些航班,一起飞的有哪些空姐。还有开会的时候,在微信上说两句分配工作。管理人员都在微信上接收任务。


   我们当时用了30天时间把微信这块的工作开发出来,这是我们的开发团队。如果大家想体验一下,可以拿起手机来扫一下我们的二维码加入。或者搜索“南方航空”,加入。“扫一扫”功能非常强。微信5.0,“扫一扫”把所有东西都吃遍了。


   另外一块是移动应用。前面有很多的数据都没有用好,但是在移动化的时代我感觉完全变了。我们以前的老板,我们信息中心做个什么系统他根本不会提太多意见,因为他没有什么时间待在电脑前用你的系统。我们现在开发一个移动应用,我们老板坐飞机之前会给你发一对指导,就是随时随地把碎片时间利用上了,所以现在我们做了很多移动应用,包括办公系统、商务移动化、客舱移动化、货运移动化、服务移动化、飞行移动化。


   这是我们旅客的一个应用,直接可以购票。这是我们推出各种版本的系统,基本所有设备都能兼容。我们的客户端推出来,今年我们感觉是在爆炸式的增长,现在每一天在手机上订票的用户,每天销售额就是一百多万。装机量达到一百多万。地面工作的人员,以前都要去看液晶屏看航班时刻,而现在通过移动设备就可以看到飞机的状况。另外一个是机长,他们以前要扛好多资料上去,但是以后就拿iPad就可以了。允许iPad在起降时用它,不用关机。以前这些数据有几个资料室来装,这只是一架飞机。还有高端客户经理,我们也会推送相关的数据,通过高端客户经理,只要你一买票,他就知道了,然后就会安排相应的接待,包括你什么时候到机场。还有OA,我们不仅结合了移动应用,通过短信审批都可以。


   我的分享就到这里,也欢迎大家来体验我们的新技术以及我们新型的飞机,包括787梦想飞机,还有A380宽体飞机(可以乘坐500人)。谢谢各位!


原文发布时间为:2013-11-26


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据 数据挖掘 数据处理
|
数据采集 数据可视化 算法
2016“数据引领 飞粤云端”广东航空大数据创新大赛亚军:大熊座epsilon
广东航空大数据创新大赛中,大熊座epsilon的同学们分享了比赛成果。首先从数据预处理、数据反映规律开始讲起,确定了工作流程,重点解释了方案设计,包括二段式模型和时序回归方法,最后对算法优势和应用作了总结。一起来了解下吧。
4537 0
|
机器学习/深度学习 大数据 数据挖掘
2016“数据引领 飞粤云端”广东航空大数据创新大赛极客奖:Oh my god团队
2016“数据引领 飞粤云端”广东航空大数据创新大赛,由广东省人民政府和阿里巴巴集团联合主办,旨在提高全社会对大数据价值的认识,培养大数据应用人才,鼓励数据创新创业实践,推动航空大数据技术成果转化和落地。本文整理自本次大赛极客奖获奖团队Oh my god的现场答辩。
4431 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
31 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0

热门文章

最新文章