《大数据原理:复杂信息的准备、共享和分析》一一

简介: 本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第1章,第1.5节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 术语提取
知道它叫什么与知道它是什么,差别很大。
―Richard Feynman

我最喜欢的电影之一是恶搞版《巴斯克维尔猎犬》,主演有饰演福尔摩斯的Peter Cooke和饰演他的忠实圣徒华生医生的Dudley Moore。一心只想着自己可笑的追求的福尔摩斯,让华生到位于达特穆尔的巴斯克维尔家族去进行紧急侦查活动。倒霉的华生站在巨大的巴斯克维尔庄园,不知道如何着手进行调查。犹豫了一下后,他转身对漠不关心的女仆命令道:“带我去找线索!”
建立索引很像侦破一起残忍的犯罪案―你需要知道如何找到线索。同样,文本中的术语是索引构建的线索。术语不会自己跳进你的索引文件,你需要找到它们。有几个可用的方法可实现从语料库的文本中寻找和提取索引词18,但没有一种方法是简单、快速而且像“stop”方法那样可扩展的19(见术语表,Term extraction algorithm,Scalable)。
文本是由单词、表示具体概念的短语和单词与短语组合成的一定序列的句子所构成的。
考虑以下内容:“诊断是慢性病毒性肝炎(The diagnosis is chronic viral hepatitis)。”这句话包含两个非常具体的医学概念:“诊断”(diagnosis)和“慢性病毒性肝炎”(chronic viral hepatitis),这两个概念相连接,再加上“the”和“is”以及语句分隔符,形成了一句有含义的陈述句。
一个术语可以是由一个或多个生僻词顺序构成并由“is”“and”“with”“the”等常见词分隔开的句子。
再举个例子:“硬脑膜外出血会在中间清醒期发生(An epidural hemorrhage can occur after a lucid interval)。”医学词汇“硬脑膜外出血”(epidural hemorrhage)和“中间清醒期”(lucid interval)是生僻词,这句话由常见词作为分隔符,如“an”“can occur after a”“.”。
如果我们有一个其中都是常见词的列表,就可以写一个程序,提取在任意长度文本中找到的所有概念。概念术语包括由生僻词构成的、不包含常见词的全部序列。下面是一种术语提取算法。
1.阅读句子的第一个字。如果它是一个常见的词,将其删除。如果它是一个生僻字,保存它。
2.阅读下一个单词。如果它是一个常见的词,则将其删除,并将已保存单词置入已在文本中发现的术语列表中。如果它是生僻词,则将其与第一步保存的单词合并为一个术语。如果它是语句分隔符,将保存的术语置入术语列表,并结束该步骤。
3.重复第2步。
这个简单的算法或者其他与之相似的算法,是一种建立索引术语集合的快速高效的方法。要使用该算法,你必须准备好或找到适合您的大数据资源的信息领域常用的单词列表。从国家医学引文库(大约2000万期刊论文)中提取出的术语常见词包括:“about、again、all、almost、also、although、always、among、an、and、another、any、are、as、at、be、because、been、before、being、between、both、 but、by、can、could、did、do、does、done、due、during、each、either、enough、 especially、etc、for、found、from、 further、had、has、have、having、here、how、however、i、if、in、into、is、it、its、itself、just、kg、km、made、mainly、make、 may、mg、might、ml、mm、most、mostly、must, nearly、neither、no、nor、obtained、 of、often、on、our、overall、perhaps、pmid、quite、rather、really、regarding、 seem、seen、several、should、show、showed、shown、shows、significantly、since、 so、some、such、than、that、the、their、theirs、them、then、there、therefore、 these、they、this、those、through、thus、to、upon、use、used、using、various、 very、was、we、were、what、when、which、while、with、within、without、would。”
这样的常见词列表有时也被称为“停止单词列表”或“障碍单词列表”,因为它限定了提取术语的开始和结束。
请注意,算法对文本逐句进行解析。对计算机来说,这是一个有点笨拙的方法,因为大多数编程语言自动从文本文件逐行切割文本(即,打破文本在换行处终结的规则)。计算机程序无法知道句子在哪里开始或结束,除非程序员开发能自动发现句子的子程序。
确定句子的开始和结束有很多种策略。最简单的方法是寻找紧跟小写字母的句子分隔符,该分隔符出现在先于一个大写字母的一个或两个空格字符之前。
举个例子:“I like pizza. Pizza likes me.”这两个句子之间是序列“a.P”,小写的“a”后面是句点,句点后面是大写的“P”。这种常见的模式(小写字母、句点、一到两个空格、大写字母)常常标示句子的间断。但如果是一行话或段落的最后一句则不适用这个模式,因为没有空格存在。对于一个句子里的多个分句,这种模式也会失效,因为在分号后不是跟着大写字母。另外,也可能错误地界定提纲句子,因为提纲里的句号后紧跟的是小写字母,表示新的主题。尽管存在这样那样的不完美,程序员还是可以对特殊句型进行规则调整形成子程序,实现对非结构化文本的逐句分解。
一旦有了提取术语的方法,建立一个术语关联位置的真实索引就跟儿戏似的了。基本上就是,按前面提到的方法每收集一个术语,就将这个术语附加到被发现的位置即可。通常,这可以通过建立一个关联数组实现,即哈希数组或基于程序语言的字典。如果在大数据资源的后续位置遇到已出现的术语,则只需将这些位置信息简单地添加到该术语位置列表中即可。在整个大数据资源完全被你编写的索引程序解析后,将会得到一个包含两个条目的关联数组,这两个条目分别是术语名称和该术语在大数据资源中出现的位置列表。把这个关联数组以文件形式展现时,就得到索引了!但这还没有全部完成。
利用上述方法可以为任意文本语料库创建索引。然而,在大多数情况下,数据管理者和数据分析人员总认为结果差强人意,因为索引中包含太多他们不感兴趣的术语。索引中的术语会按字母顺序排列,但在大数据资源中的字母概念表示并不与术语相关。
如果找到一本索引设计水平较高的书,你会发现索引设计者煞费苦心地将关联术语放在一个副主题下,当然在某些情况下,同一个副主题中的术语会被分到多个副主题中,索引中的个别术语也会被链接到相关术语上(交叉索引)。
无论是由人工创建还是计算机生成,好的索引必须要服务于数据分析所需的数据管理工作。而创建索引的程序员也应当充分运用其创造力、洞察力和审美能力。这里给出一小部分创建索引时需要关注的问题。
1.索引应该根据特定的知识领域来创建吗?你也许需要创建一个人名索引、地理位置索引或者交易类型索引,是否需要按知识领域来创建索引,取决于大数据资源的预期用途。
2.索引应该根据特定的术语表来创建吗?如果一个编译好的术语表中的术语与近义词共享代码,也许有助于索引的创建。
3.索引应该在分类的基础上创建吗?例如,一个为生物学家准备的索引也许聚焦在生物体的分类上。基因数据已经能够被基因本体索引,同时也是生物研究的工具20。
4.在没有分类的情况下,索引应该包含术语的近义词吗?会得到新发现的术语关联分析有时候会在收集索引术语间的不同时进行,并且会带来一些有用的信息21,22。那些距离接近的术语很有可能有某种对应关系。例如,如果“苯胺染料工业”(aniline dye industry)与看似无关的术语“膀胱癌”(bladder cancer)同时出现,你可能会怀疑是否是“苯胺染料工业”诱发了“膀胱癌”。
5.是否应该创建多个索引?专业的索引可能会为不同的数据分析师而创建,他们往往有多种研究任务。
6.是否应该将索引合并到其他索引中?合并索引比合并大数据资源简单多了,这里有必要提醒大家,大数据的最大价值在于寻找不同数据集合之间的关联关系。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
27天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
104 0
|
2月前
|
SQL 存储 分布式计算
maxcompute配置问题之配置mc内容如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
30 1
|
8天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
33 0
|
22天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
29天前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
分布式计算 NoSQL 大数据
探索数据宇宙:深入解析大数据分析与管理技术
探索数据宇宙:深入解析大数据分析与管理技术
55 1