科技谷CEO陈思恩:用数据驱动决策,需要把算法和运筹学结合起来| CCF-GAIR 2017

简介:

雷锋网消息,2017 年 7 月 8 日,由 CCF (中国计算机学会)主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天。科技谷CEO陈思恩博士进行了题为“交通出行大数据——引爆智能商业新浪潮”的演讲。他表示,公路、铁路和民航等交通方式具有巨大的出行量,每年有数十亿的需求,这其中就存在 AI 和大数据的需求,AI 落地的场景会逐步在出行的领域渗透。

陈思恩还认为,算法必须要和运筹学结合起来,因为最终实现的是数据驱动决策,真正的AI是要跟大数据有一个有效的融合,去解决用户的痛点。

科技谷CEO陈思恩:用数据驱动决策,需要把算法和运筹学结合起来| CCF-GAIR 2017

以下为陈思恩演讲实录,雷锋网(公众号:雷锋网)做了不改变原意的修改。

陈思恩:大家好,今天上午的最后一个环节由我给大家介绍一下 AI+交通出行的方向,其实大家看到这个命题就知道在这个领域里面肯定不会是一个伪命题,也不会是一个伪赛道,因为现在无论是创业公司还是投资机构都担心做的方向错了。科技谷公司选择的方向是在公路、铁路和民航的出行上。大家知道一年铁路有 30 亿人次的出行量,民航大概有 5 亿人次,公路总共有 30 亿人次,在这里面有大量优化的需求。也就是说他会存在 AI 和大数据的需求。随着 AI 和大数据的推演, AI 落地的场景会逐步在出行的领域渗透。

传统的智能改造方向已经产生很多的应用,从早期的人工智能到现在的机器学习。机器学习是实现人工智能的一种方法,而深度学习是对机器学习技术的推进。科技谷本身专注在交通出行和大数据方向,在这个方向里面,不管是航空公司还是机场都有大量的需求,大家可以看到,在运营方面还是在收益、营销的体系建设方面都有需求所在,同时大数据的引入需求也是比较旺盛的,所以我们选择的点主要是在收益优化和安防方向,也就是维稳这个方向。

可以看到在交通大数据和 AI 这个方向的结合是比较好的,因为交通数据比较容易开放,而且开放完以后比较容易产生价值。首先它也是需要遵循一定的规则,大数据前面这一波的热潮出来之后使得很多交通数据形成了堆积,无论是使用什么样的大数据厂商提供的服务,都把数据汇总起来了,这是很关键的。后面就用统计和机器学习的方法去建立相关的模型,为算法做一些准备。我们认为算法跟运筹的最优解可以结合,因为最终是要实现某一个供应链的配置,比如说通过客流、民航、铁路和公路找到最优解。同时能够增加多种收益,比如说收放仓的控制,这种环节都需要用到一些比较核心的 AI 的算法,而且能够自动化控制。

我们认为在交通出行领域需要三个要素才能够比较好地实现整个环节,也就是说它首先是需要有大量的数据,无论是内部还是外部的,这里面需要有大数据的掌控公司,同时还需要有大数据的中间商,也就是买卖、交易,现在国内做了很多的交易所,还有一种是大数据的技术公司,可能是从统计部分的机器学习,再加上计算机的原理去实现大数据的架构,到后面需要用深度学习的方法去落地,所以三个环节是很重要的,一个是大数据本身,另外一个是大系统,也就是前期在推使用的算法,要用什么样的构架来跑,还有你的服务器用什么方式来做。后面就是算法跟运筹优化这一块结合,解决一些比较实际的用户的痛点。

为什么会跟运筹这一块结合起来?因为你最终实现的是数据驱动决策,真正的AI是要跟大数据这一块有一个有效的融合,去解决用户的痛点,比如说如何更好地实现它的票价,更好地最优,会员日的如何更好地把优惠券以合理的价格、合理的时间推送到真正有需求的用户手上,这些都是真正去解决它的实际痛点。

在交通出行这一块的分布,我们也是采用了渐进式的方式。什么叫渐进式?就是说它会采用除了PDCA形成一个闭环,然后逐步 AI 实现的就是人工介入部分,把大数据落地。然后用工程的方式来做,所以我们把国外很多facebook、推特这些可以触达旅客的点结合起来,比如说航空公司在订票的时候,他根本不知道他的哪些顾客来自facebook,哪些来自推特。但是通过我们和他们合作,可以找到机票的用户从哪里来,下一次有优惠信息的时候可以推荐到他的行程上。把国外的数据源带到国内,对大的航企、12306都有很大的帮助,也就是直接带客源进去,他在整个大数据的连接上面产生价值之后,就需要开始去做内部的数据深挖,这时候就需要用机器学习的方法,甚至是一些AI深度学习的方法去做。

外部的数据引入之后,就需要对某个人或者某个事件做画像,这个航线要怎么画像,客源是怎么来的,这些都要有深度的识别,对我们来说是上百个维度的识别。这些推演的背后就是机器学习,它是人工智能很好的实现方法,同时深度学习也是对机器学习很好的实现,就像《黑镜》里面的女主角通过机器学习的方式,在社交网络上模仿她的男朋友的语态。你要更了解你的客户,才能真正实现更好的策略。

刚才讲的是大数据的数据部分,接下来是系统部分,微软在这一块有HD  inside,我们也有自己的inside套装,我们认为在企业需要混合云来搭,就像12306在出行高峰的时候用阿里云的资源,降低它的主机的负荷。所以分布式架构用混合云的架构会长期存在,而且对云端的依赖会加大,就像华为进入公有云的市场,中兴通讯也有它的云,国内是阿里云比较有名,我们也把我们的系统搭建在亚马逊的云上,通过混合云的架构帮助客户实现大系统的搭建。

接下来这是我们的大系统的架构,因为要跟云结合,里面包含了各种技术的组合,然后有我们自己的 SDK,封装了很多方式,这种方法已经用在国内的很多大型的航空公司和铁路的12306,这里面还包括一些推荐的引擎和算法,这完全是To  B的架构,但是它做的是B2C的方向。

这里面有两个重要的东西,一个是平台,在这个点上跟其它的平台是大同小异的,但是它会偏行业,因为行业的东西是比较不一样的,特别是数据清洗这个环节,还包括在数据建模。因为算法跑起来,模型是很重要的,还有约束条件、建模的方式都是不一样的。另外inside这一块是比较有特点的,也就是我们的套装化之一,这里面含了画像的场景、关系图谱。知识图谱里面很重要的一个就是建RDF,也就是整个关系建立的套件,还有推荐引擎和算法。这里面涉及到数据建模的优化和神经网络的东西,所以这个套件我们花了大概三四年的时间,而且这个很需要在大的数据库里面去练。因为我们做得比较早,在这个领域里面,像12306,中国大的企业都是我们的客户,所以我们这个产品得到了很好的历练,它相对来说是能够接受体量很大的数据场景去找最优解。

在这个之上,它这里面涉及到大量的运算方式,比如说画像的场景,它可以支持上千个维度的自动化,它是通过参数配置的,自动化形成多种算法的场景。同时在推荐系统上也是多种关联,时间节点、分布式算法,同时对用户行为进行预测。

之后我们关注在我刚才提到的三个要素,一个是数据,第二个是平台,第三个是算法。算法我们选择的是收益这个环节,我们能够真正帮用户实现收益,也就是 AI 这一块新的优化。就像星河互联的傅总讲的,航空这一块的自动化程度高,但是对创业公司也不意味着没有太多的机会,国外做这一块的就有好几家公司,但是国产化的公司还没有,酒店行业现在有几家起来了,但是航空产业基本上是没有的,我们会从航空和铁路的收益环节去做,把大量的运算放在云端,客户用租用的方式就可以实现对算法的采购,用许可的方式和服务费、订阅费的方式去支付我们的产品费用。

收益这一块,我们也是大概6个月的时间可以帮助客户实现从大数据的引入到平台的建设,到收益优化算法的建立。所以现在已经有比较大的合作伙伴在用这套系统,而且这个平台可以直接用于更多的平台性的客户,比如说阿里的飞猪、美团、滴滴,它需要做求解器,收益有关场景的用户都会去用,我们会先从航空和铁路这方面的客户做起。

这里面具体做什么?在航空领域,它的 NO-SHOW 的模型也是要改变的,因为天气数据现在都是开放的,这些维度的数据要实时的整合,你的算法现在不是静态模型,而是需要动态模型,同时你在外部的行为都是动态的,这些环节都需要导入,导入完以后你对NO-SHOW这个环节,包括座位分配的环节,都要重新用机器学习的方式去做,最终实现一个最优化。对航空公司来说,虽然是最优化,但是它是基于机器学习的,最终它的 AI 对比就是说我算得比别人更准,我的收益提高得比别人更高,最终它就达到了结果,而且全面国产化是一个很好的趋势,因为很多央企也都非常支持这个事情,我们这个公司现在就是在立足做国产化的收益求解器。同时我们在做的时候是用工程的方式落地,而不是把产品推过去用云的方式落地。针对大的企业级用户,任务分解必须做得很细。这里面需要航旅类的企业配合,需要IT、营销人员参与,当然任何做 AI 和大数据方向的都是公司的战略决策,无论是首席数据官还是首席信息官,或者是 CEO 都要参与这个事情。中间它就需要我们的大数据工程师和数据科学方面的人一起整合去做这个事情,长期迭代服务才能够建立比较有效的环节,同时还要导入一些外部的数据,因为企业内部的数据远远是不够的,包括 12306 都不敢称自己是大数据公司,当然BAT是真正的大数据公司,因为它的数据够多元化。

对科技谷来说最主要的是要帮客户创造商业价值,带来创新。真正使这套技术落地,给客户变现带来收益,所以我们也是立足这个方向,持续做这个市场相关的东西。

通过这几年的积累,我们也建立了非常多的合作伙伴和客户,因为要成就一个比较好的公司,它需要有一个完整的上下游的产业链配套,很多是我们的兄弟公司一起推动,对这种大的企业,单打独斗是很难在一个市场立足的。

我的报告就到这里,谢谢大家。


本文作者:李雨晨                             

本文转自雷锋网禁止二次转载,原文链接


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
C4.
|
1月前
|
算法 程序员 C语言
C语言的选择结构与数据算法
C语言的选择结构与数据算法
C4.
17 0
|
2月前
|
机器学习/深度学习 数据采集 搜索推荐
Paper Digest | 突破个性化推荐数据稀疏性:长尾增强的图对比学习算法研究
本文提出了一种新的长尾增强的图对比学习方法(LAGCL),该方法促使模型同时兼顾头部节点与尾部节点之间的知识,并通过长尾增强技术来使模型产出更均匀更准确的节点表征,从而改进基于 GNN 的推荐任务。
|
16天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
29天前
|
机器学习/深度学习 算法 数据挖掘
请解释Python中的决策树算法以及如何使用Sklearn库实现它。
决策树是监督学习算法,常用于分类和回归问题。Python的Sklearn库提供了决策树实现。以下是一步步创建决策树模型的简要步骤:导入所需库,加载数据集(如鸢尾花数据集),划分数据集为训练集和测试集,创建`DecisionTreeClassifier`,训练模型,预测测试集结果,最后通过`accuracy_score`评估模型性能。示例代码展示了这一过程。
|
1月前
|
机器学习/深度学习 算法
随机森林算法是如何通过构建多个决策树并将它们的预测结果进行投票来做出最终的预测的?
【2月更文挑战第28天】【2月更文挑战第102篇】随机森林算法是如何通过构建多个决策树并将它们的预测结果进行投票来做出最终的预测的?
|
2天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
11 0
|
3天前
电信公司churn数据客户流失k近邻(knn)模型预测分析
电信公司churn数据客户流失k近邻(knn)模型预测分析
15 0
|
1月前
|
机器学习/深度学习 数据采集 算法
Python基础算法解析:决策树
Python基础算法解析:决策树
34 8
|
1月前
|
机器学习/深度学习 算法 前端开发
瞄准核心因素:Boruta特征选择算法助力精准决策
瞄准核心因素:Boruta特征选择算法助力精准决策
87 0
|
1月前
|
机器学习/深度学习 数据采集 算法
实现机器学习算法(如:决策树、随机森林等)。
实现机器学习算法(如:决策树、随机森林等)。
24 0