中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.4 为什么要重视非结构化数据

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介:

1.4 为什么要重视非结构化数据

接下来我想简单地介绍一下大家可能听过的一些内容,如果大家不熟悉我想再说明一下为什么非结构化的数据能够扮演如此重要的角色。在商业分析的领域中,人们希望能够借助时间序列、回归等听起来很酷炫的机器学习办法来分析问题,这可能是一些销售噱头,但是这个不重要。

image

我想说的是,为什么图中会有这么多的上升和下降?企业使用诸如真实气象数据这样的数字数据,希望能找到更多的商业营销卖点,可以卖冰激凌也可以卖雨伞。但是获取再多这样的数据也无法解释一切事件。如果我们获取更多的数据,如新闻和推特数据,那么就能搞清为什么会出现某些高峰或低谷,并将它们与真实生活中发生的事件联系在一起,比如说是关于纽约新港港口和船只博览会的新闻和推特数据。

image

我们再来看一下医疗数据,医疗数据现在大多是数字数据和图像数据。但是如果没有医生的报告将相关的事件、发现和假设提取出来,这些数据就没多大用处。因此只有将非结构化数据和结构化数据结合起来,才能解决问题。这就是我们以及Wikidata、DBpedia现在希望完成的工作,我们尝试将信息提取出来并尽可能将其转换成结构化数据,将它们放在知识图谱中。

如果我们看一下文献信息提取,就会发现人们试图涵盖所有东西,比如说从某些对话(如客户关系管理)中提取主题和答案,再重复利用提取出的答案;我们还可以提取名称、事实、事件、意见和情绪等。现在我们有这样一个项目,在该项目和它的几个子项目中与很多先锋公司和大公司进行了合作,如西门子、莱比锡大学等;还有一些外部的合作伙伴,像WIKIMEDIA、Wikidata基金等;我们也和提供商业数据的公司进行了合作,如BBD柏林数据中心、WVC德国和奥地利分公司。

下面介绍一下我们在这个项目中所使用的方法。

●将企业内部数据与开放数据、开放知识和新媒体(比如新闻媒体、电视、社交媒体)内容进行整合。
●将知识图谱与开源办法和工具连接起来。
●将数据分析整合到强大的大数据技术中。因为不久以后数据就会变得非常庞大,无法用常规的技术进行处理。
●结合使用结构化方法、统计方法和深度学习分析异构数据。
●为新型数据价值链构建可行商业模型和法律框架。在欧洲几乎一切成果都受严格的知识产权保护,同时也受数据隐私和数据安全方面的权利保护。因此我们与律师们进行合作,如果没有他们就无法在欧洲完成如此庞大的工作。

image

我们从互联网上获得数据包括非结构化数据、半结构化数据,以及企业内部数据。这张图是很典型的知识图谱,我们所做的就是要把不同来源的数据输入到这个知识图谱中,然后得出整合后的知识图谱,将其扩展为公共知识图谱,这基本就是这个项目的原理。

image

这张图就不赘述了。这是一个企业内部语义网,定义了企业之间、企业与产品之间,以及产品和科技、科技和科技、企业内部人与人之间关系。最后就会得到一张这样的知识图谱,现在应用在供应链关系和市场调研中。

我们还在其他领域应用了相同的方法,但是从这个项目来看,更多是和应用有关的,这个是另外一个项目了,我们在其他项目中也有相关应用。我们使用的数据包括交通数据、开源数据、媒体数据、采购数据等,可以利用的其他数据还有很多,这已经足够多了。

我之前也跟大家谈到,这样的发展是非常迅速,外部的数据越来越多,你要把所有的数据嵌入到大数据,我所在的DFKI柏林中心的大数据部门的主任也成立了这样的一个小组,专门做了一个大数据的平台。我们可以使用其他的大数据平台,为什么要使用Apache Flink这个平台?不仅是因为他本身就是Apache Flink的开发者,而且还因为这个平台非常擅长于数据流处理。相比之下,Spark在流处理时只是将数据分成一个小批次进行处理,并不是真正的流处理。如果我们要进行实时数据的流处理,它就不如Flink,这就是为什么我们最后选择了Apache Flink。

我们将工具挖掘(mean crawling)外包给了一家公司,我们对语义工具进行过滤,然后再进行预处理、实体发掘和联系,以及事件提取,最后得出可以用在多个项目中的KPI。接下来我们再谈谈实体联系,这项工作极具挑战性,这个系统是我们几年前构建的,并在2015年时获得一个奖,我们这几年一直在改善该系统,效果也不错。比如说阿姆斯特朗这个名字,它可能是指摇滚乐手、宇航员等,我们将内部知识和外部知识联系起来,识别出来谁是你想查的那个人。维基百科也要使用,有的企业数据结构化,对于这样的信息我们也会整合在实体联系的结果中。

image

方法论这部分待会儿再来谈,这是一种混合优化和深度学习的方法,多目标优化在处理联系和歧义方面做的比深度学习好。在处理动词时,我们则使用深度学习。在消除动词时态歧义时,我们就使用的是深度学习,因为并没有太多上下文可以依据。对于数值优化,传统的一些办法效果更好,但是在这个情况下可能做不到那么好。

现在在动词时态消除歧义和实体联系上,几乎所有人都声称自己做的更好,但是从个人角度来说,我们从来不说自己做的最好,我们在所专攻的领域上做的非常好,其中一个领域是进行关系提取以获得事实。我们希望学习关于公司的事实,比如哪一个供应商有问题、哪一个供应商濒临破产、哪一个供应商出现了罢工问题,以及哪家公司在发布新产品。在这方面,我们使用的是语言学最小限度远程监督机器学习(Minimally and Distant Supervised ML for Linguistic)。

和其他人一样,我们从语言处理监督学习研究人员先前提出的事实开始着手,最早的是斯坦福大学研究人员发表的论文。我们怎么做的?其实跟他们不太一样,我等会在向你们说明。我们获取了数千个事实,然后在谷歌搜索引擎上进行搜索,在得出的搜索结果网页中,把句子断句之后确定句子的相依性,然后通过复杂的模式提取机制进行提取。刚开始时这种机制并不理想,许多机构在这里败下来,因为这种机制通常只能适用于短句、断句的语意分析。我们使用了语义知识图谱,例如Wordnet,用其中的资源进行过滤,以确保提取出的内容具有语义上的模式。

image

举一个例子,一个人跟另外一个人结婚,会有很多不同的模式,实际上有数千种不同的模式。为什么模式研究很重要?因为这些模式将我们与知识联系在一起的,我们现在已经把模式和语句进行了匹配,最后会得到一个模式图,其中橙色框中的内容是给出了我们希望找出的关系,然后再基于这么多的关系来进行统计分析,例如频率分析。

image

从上图可以看出,我们整个处理流程是一个闭环。从实例开始,进行最小限度监督学习,然后再输入搜索出来的更多实例。当你的实例达不到1万个时,你可以进行最小限度的监督学习;当你有了很多的实例之后,我们可以把实例不断地加进来。现在我们的系统可以把监督学习、无监督学习、最小限度的监督学习、远程监督学习整合起来。

很简单,你只需将带标签的陈述(tagged mentions)加到解析器(Parser)中,当你把这样的样本加进来之后,整个系统就会自动跑起来。如果是有标签样本,你可以跑3次这样的循环,因为我们有一个监督式、非监督、远程监督的机器学习方法,可以做3次数据的分析。我们之所以整合那么多的机器学习的方法,是因为一开始的数据是有限的。现在我们的系统在日以继夜地运转,过去6个月中我们也得到了很多不同的数据,现在已经涵盖120万个企业的实体知识库,可以跟踪他们的信号。我们采集的只有收到语义信号的企业的数据。

当然从某些角度来看,这些数据并不是干净、有序的,因为这是结构和模式的混合式。但是在应用中,我们需要对比各种方法。方法有很多,例如有限状态的方法(finite-state methods)、混合优化、多对象优化、卷积神经网络等。

但是很遗憾的是,现在我们的目标是将成果应用到实际生活中,必须从每种方法中找到最适合我们数据的部分。有这么多方法,我们可以为深度学习领域或其他基于知识的领域中的从业人员提出很多不同的解决方案,从而实现早期应用。

我们在一些领域已有一些应用,比如AI辅助产品经理,我们可以从全球的信息化企业搜索他们客户在想些什么;我们还可以通过人工智能进行供应链的管理,进行市场调研,辅助投资经理进行投资的管理。

最后来看一下前景,我们用几分钟时间讲讲我们未来的前景,这就是我们的现实。我讲的这些都是我们能够做到最好的,我不知道你们做的怎么样,我们正尽全力试图将成果应用到企业中。我们必须整合这些方法,因为每一种方法都不够完美,比如说机器学习、深度学习等。因此,我们通过衡量每种方法挑选出当前最好的方案,但是未来会怎样?

image

上图是DFKI的CEO做的图,我前面讲过工业4.0就是他的想法,他同时也是一名人工智能研究人员。到1975年时,我们主要应用的是一些搜索、启发式的搜索和认知的一种方法;到1995年是基于知识的系统,人们试图研究知识工程学并构建海量的知识,这非常困难,而且当时没有足够多的知识可以建立。

为什么太困难?有两个原因,一个是因为他们野心太大了,想添加太多逻辑。当时只有一个人想要建立这样的知识,现在我们的知识系统是由数百万人共同构建,所以说是非常不一样的。到2015年时我们有了学习系统,非常大,现在也很大。我写的是到2015年不代表到这里就停止了,我认为这个系统在中国发展的就非常迅速。

image

它的意思就是说,如果回溯50年或100年,当时我们认为下一个浪潮是系统整合,就是把各系统的功能整合在一起。我一开始时忘了讲,其实新系统有核心上不一样的东西。很多系统通过数据来进行学习,同时还需要一些时间运行额外的数据,它们或许不够稳定,或许是我们不知道怎么样进行选择,它们也有可能太大、太活跃,可能还需要时间运行额外数据。例如,对于导航,需要获得一些天气、路况的信息,这是动态的,没有太多学习时间。如果说我们要获得最新新闻,了解股市的最新变化。上图是新的系统,重叠的部分就是我们所预测的真正变革,我认为我们看到的只是真正变革的一个重要信号,但是现在这个变革还没有到来。

现在的系统只能做一些夺眼球的任务,对我们而言围棋似乎很重要,但对这个社会来说还没有那么重要。我们可以研究对象识别,开发许多好的应用并利用这样的能力帮助我们赚钱。但是在这个中心,会产生下一次革命,处理知识和数据的能力将实现飞跃。IBM的系统由Wason和有两个机器人组成,这三者都无法连接至网络,相当公平。这两个机器人就像我们的人一样长有脑袋,Wason利用大量机器和存储从维基百科、字典、圣经、历史书上下载大量的信息,这就是未来。如果我们利用这种技术把行为学习和深度学习的力量结合起来,机器不会和人类一样蠢,在某些方面必定是超级智能的;而且我们的大脑、知识和语言是通过变革不断进化的,知识变革是后来兴起的,如果能将知识变革和行为变革结合起来,就可以构建任何类型的革命性系统并快速复制这种行为,这种系统必定会非常强大。事实上,人们已经在进行这项工作,并且不断地在完善各种系统。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
阿里通义千问大语言模型在人工智能教育领域的应用探索
阿里通义千问,阿里集团的大型预训练语言模型,应用于AI教育,实现个性化教学、自适应学习系统和智能答疑。通过AIGC,它生成个性化内容,适应不同学生需求,优化教育资源配置,推动教育创新。在教育场景中,模型提供实时反馈,定制学习路径,促进教学质量提升。随着技术进步,AI在教育领域的应用将更加深入,但也需关注伦理与安全。
80 1
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能在医疗行业的应用与挑战
随着人工智能技术的不断发展,其在医疗行业的应用日益广泛。本文将探讨人工智能在医疗领域的应用现状、所带来的益处以及面临的挑战,包括医学影像诊断、个性化治疗、疾病预测等方面的应用,并就数据隐私、伦理道德等问题进行探讨。
|
29天前
|
机器学习/深度学习 人工智能 前端开发
未来趋势:人工智能在前端开发中的应用
随着人工智能技术的快速发展,前端开发领域也迎来了新的变革。本文将深入探讨人工智能在前端开发中的应用现状,并展望未来的发展趋势,带领读者一窥未来前端开发的可能面貌。
|
30天前
|
机器学习/深度学习 人工智能 算法
人工智能在医疗领域的应用与思考
当我们谈论人工智能时,常常想到的是其在自动驾驶、语音识别等领域的应用。然而,人工智能在医疗领域的应用也备受关注。本文将探讨人工智能在医疗领域的现状和未来发展,以及对这一趋势所带来的思考。
26 1
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在医疗诊断中的应用
随着科技的飞速发展,人工智能(AI)已经渗透到各个领域,其中医疗行业尤为突出。本文将深入探讨人工智能在医疗诊断中的应用,以及它如何改变传统医疗模式,提高诊断准确性和效率。通过对比分析,我们将展示AI技术在医疗影像、基因测序、疾病预测等方面的具体应用案例,以及这些技术所面临的挑战和未来的发展趋势。
14 2
|
25天前
|
机器学习/深度学习 人工智能 算法
探索人工智能在医疗诊断中的应用
随着科技的飞速发展,人工智能(AI)已经成为了各行各业的热门话题。在医疗领域,AI的应用也日益广泛,尤其是在医疗诊断方面,AI技术为医生提供了强大的辅助工具,提高了诊断的准确性和效率。本文将探讨人工智能在医疗诊断中的应用,以及它如何改变医疗行业的未来。
11 1
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
未来人工智能在后端开发中的应用前景
随着人工智能技术的不断发展,后端开发领域也迎来了新的机遇与挑战。本文探讨了人工智能在后端开发中的应用前景,分析了其对传统开发模式的影响和未来发展趋势。
|
25天前
|
机器学习/深度学习 人工智能 资源调度
未来人工智能技术的发展趋势与应用前景
随着人工智能技术的快速发展,未来在各个领域都将有更广泛的应用。本文探讨了人工智能技术的发展趋势以及在前端、后端开发等领域的应用前景,展望了未来人工智能将如何改变我们的生活和工作方式。
|
27天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在医疗领域的应用及其未来展望
随着科技的飞速发展,人工智能(AI)已经渗透到我们生活的方方面面,其中医疗领域的发展尤为引人注目。本文将深入探讨人工智能在医疗领域的应用,包括疾病诊断、治疗方案制定、患者监护等方面,并对未来发展趋势进行展望。我们将看到,AI技术的引入不仅提高了医疗服务的效率和质量,还为患者带来了更好的就医体验。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在当代社会中的应用与未来发展趋势 摘要:
人工智能(AI)作为一种新兴技术,在当代社会中扮演着越来越重要的角色。本文将探讨人工智能的基本概念、当前在各个领域的应用情况以及未来的发展趋势。首先,我们将介绍人工智能的定义和分类,然后详细讨论人工智能在医疗、金融、制造业、交通、教育等领域的应用案例。接着,我们将分析人工智能发展面临的挑战,包括数据隐私、伦理道德等问题,并探讨如何解决这些问题以推动人工智能的发展。最后,我们将展望人工智能的未来发展趋势,包括深度学习、自然语言处理、机器人技术等方面的进展,以及人工智能对社会和经济的影响。