《机器学习系统设计:Python语言实现》一1.1 人机界面

简介:

.本节书摘来自华章出版社《机器学习系统设计:Python语言实现》一书中的第1章,第1.1节,作者 [美] 戴维·朱利安(David Julian),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.1 人机界面

如果你有幸用过微软Office套件的早期版本,你大概还能记得Mr Clippy办公助手。这一功能出现在Office 97中,每当你在文档开头输入“亲爱的”,它就会不请自来,从电脑屏幕的右下角蹦出来,询问“你好像在写信,需要帮助吗?”
在Office的早期版本中,Mr Clippy是默认开启的,几乎被所有软件用户嘲笑过,这可以作为机器学习的第一次大败笔而载入史册。
那么,为什么这个欢乐的Mr Clippy会如此遭人痛恨呢?在日常办公任务中使用自动化助手不一定是个坏主意。实际上,自动化助手的后期版本,至少是最好的那几个,可以在后台无缝运行,并能明显提高工作效率。文本预测有很多例子,有些很搞笑,大错特错,但大多数并没有失败,它们悄无声息,已经成为我们正常工作流的一部分。
在这一点上,我们需要区分错误和失败的不同。Mr Clippy的失败是因为它的突兀和差劲的设计,而它的预测并不一定是错误的;也就是说,它可能给出了正确的建议,但那时你已经知道你正在写一封信件。文本预测的错误率很高,经常会得出错误的预测,但这并没有失败,主要是因为它的失败方式被设计为悄无声息的。
设计任何与人机界面紧耦合(系统工程的说法)的系统都很困难。与一般的自然界事物一样,我们并非总能预测人类行为。表情识别系统、自然语言处理和手势识别技术等,开启了人机交互的新途径,对机器学习专家而言,所有这些都具有重要的应用。
每当设计需要人机输入的系统时,我们应当预见所有可能的人机交互方式,而不仅仅是我们所期望的那些方式。在本质上,我们对这些系统试图要做的是,培养它们对人类经验全景的一些理解。
在Web的早期,搜索引擎使用的是一种简单的系统,以文章中出现搜索条件的次数为基础。很快,Web开发者就通过增加关键词与搜索引擎展开了博弈。显然,这将导致一场围绕关键词的竞赛,Web将变得极为烦人。随后,为了提供更为准确的搜索结果,人们又设计了度量优质引用链接的页面排名系统。而今,现代搜索引擎都使用了更为复杂和秘密的算法。
对机器学习设计师同样重要的是,人机交互中所产生的数据量一直在增长。这会带来诸多挑战,尤其是数据的庞大浩瀚。然而,算法的力量正是在于从海量数据中提取知识和洞察力,这对于较小规模的数据集几乎是不可能的。因此,如今大量的人机交互被数字化,而我们才刚刚开始理解和探索其中的数据能够被利用的众多途径。
有项研究的题目为《20世纪书籍中的情绪表现》(The expression of emotion in 20th century books, Acerbi等人,2013),这是一个有趣的例子。尽管严格地说,该研究属于数据分析而非机器学习,但就一些理由而言,它还是具有说明性的。该研究的目的是,从20世纪的书籍中抽取情绪内容文本,以情绪分值的形式进行图表化。通过访问Gutenberg数字图书馆、WordNet(http://wordnet.princeton.edu/wordnet/)和Google的Ngram数据库(books.google.com/ngrams)中的大量数字化书籍,该研究的作者能够绘制出20世纪文学作品中所反映出的文化变迁。他们通过绘制情绪词语使用的趋势来实现其研究目的。
在该研究中,作者对每个词语进行标记(1-gram分词算法),并与情绪分值和出版年份进行关联。诸如快乐、悲伤、恐惧等情绪词语,可以依据其表达的正面或负面情绪进行评分。情绪分值可以从WordNet(wordnet.princeton.edu)获得。WordNet给每个情绪词语都赋予了情绪反应分值。最后,作者对每一情绪词语的出现次数进行了计数:
image

在此式中,ci表示特定情绪词语的计数,n表示情绪词语的总数(不是所有词语,仅包括具有情绪分值的词语),Cthe表示文本中the的计数。在归一化总和时,考虑到一些年份出版或数字化的书籍数量更多,同时晚期的书籍趋向于包含更多的技术语言,因此使用了词语the而不是所有词语的计数。对于在相当长的一段时期内的散文文本中的情绪,这种表示更为精确。最后,通过正态分布对分值进行归一化,即Mz,减去均值后除以标准差。
image

上图摘自《20世纪书籍中的情绪表现》(The expression of emotion in 20th century books, Alberto Acerbi, Vasileios Lampos, Phillip Garnett, R. Alexander Bentley)美国科学公共图书馆。
这里,我们可以看到该项研究所生成的一张图表。该图显示了这一时期所著书籍的快乐-悲伤分值,从中可以明显看出二战时期的负面倾向。
这项研究之所以有趣,有如下一些原因。首先,它是一项数据驱动的科学研究,而在过去,类似的研究内容被认为是诸如社会学和人类学的软科学,但在该研究中,给出了坚实的实验基础。此外,尽管其研究结论令人印象深刻,但其实现过程相对容易。这主要得益于WordNet和Google已经完成的那些卓越努力。其亮点在于,如何使用互联网上免费的数据资源和软件工具,例如Python的数据和机器学习包等,任何具备数据技能和动机的人都能够从事这方面的研究。

相关文章
|
4天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
4天前
|
机器学习/深度学习 传感器 物联网
【Python机器学习专栏】机器学习在物联网(IoT)中的集成
【4月更文挑战第30天】本文探讨了机器学习在物联网(IoT)中的应用,包括数据收集预处理、实时分析决策和模型训练更新。机器学习被用于智能家居、工业自动化和健康监测等领域,例如预测居民行为以优化能源效率和设备维护。Python是支持物联网项目机器学习集成的重要工具,文中给出了一个使用`scikit-learn`预测温度的简单示例。尽管面临数据隐私、安全性和模型解释性等挑战,但物联网与机器学习的结合将持续推动各行业的创新和智能化。
|
4天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
4天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
4天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
4天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
4天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
29 1