《中国人工智能学会通讯》——4.39 什么是深度强化学习?

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第4章,第4.39节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

4.39 什么是深度强化学习?

现在街头巷尾都在谈论的机器学习,其实是一个非常宽泛的概念,而其中最酷的分支要算是深度学 习(Deeplearning) 和 强 化 学 习(Reinforcementlearning)了。谷歌的 DeepMind 就是将深度学习和强化学习这两者的精髓合二为一,提出了深度强化学习。在 2014 年的时候,这个团队就在《Nature》杂志上发表了题为《Human-level control through deepreinforcement learning》的论文,让业界对此充满了期待。

深度学习起源于 2006 年,这要感谢机器学习领域的泰斗 Geoffrey Hinton 先生,是他在《Science》上的一篇著名论文开启了深度学习的浪潮。Geoffrey Hinton先生是个非常勤奋的学者,老人家腰椎不是太好,写个代码都得站着,而且还无法坐飞机,正所谓,伟大的人总要有伟大的付出,在此,向他致敬!

深度学习是一种机器学习中建模数据的隐含分布的多层表达的算法。换句话来说,深度学习算法自动提取分类中所需要的低层次或者高层次特征,因此深度学习能够更好的表示数据的特征;同时由于模型的层次、参数很多,容量也足够,因此深度学习模型有能力表示大规模数据。所以对于图像、语音这种特征不明显的棘手问题,反而能够借助深度学习在大规模训练数据上取得更好的效果。而且由于深度学习将特征和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工提取特征的巨大工作量,因此不仅仅效果可以更好,而且应用起来也非常方便。因此深度学习在图像识别和语音识别方面获得了巨大的进步。

强化学习,其实,就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”),从数学本质上来看,还是一个马尔科夫决策过程。强化学习最终目的是让决策过程中整体的回报函数期望最优。

通过所谓的类似于人脑网状结构的神经网络,深度学习是可以解决很多很实际的问题。例如谷歌的图像搜索、Facebook 的人脸识别、Skype 的实时翻译,以及 Twitter 的色情语言识别。强化学习则将深度学习又往前推进了一步,一旦你建立起了一个玩游戏的深度学习网络,你可以通过强化学习,让它和自己进行比赛,自我进化。

相关文章
|
6月前
|
机器学习/深度学习 人工智能
什么是人工智能领域的强化学习?
什么是人工智能领域的强化学习?
89 0
|
2月前
|
机器学习/深度学习 人工智能 算法
强化学习:原理与Python实战||一分钟秒懂人工智能对齐
强化学习:原理与Python实战||一分钟秒懂人工智能对齐
|
4月前
|
机器学习/深度学习 数据采集 人工智能
火星探测器背后的人工智能:从原理到实战的强化学习
火星探测器背后的人工智能:从原理到实战的强化学习
58 0
|
8月前
|
机器学习/深度学习 人工智能 机器人
强化学习:人工智能的未来之路
强化学习作为人工智能的重要组成部分,以其独特的学习方式在游戏、机器人控制、金融交易等领域取得了显著成就。通过模拟试错过程,强化学习使得计算机能够逐步优化决策策略,实现智能决策。未来,随着多任务学习、迁移学习和深度强化学习的发展,强化学习必将在人工智能的未来之路上发挥更加重要的作用。
150 1
强化学习:人工智能的未来之路
|
9月前
|
机器学习/深度学习 人工智能 算法
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
|
10月前
|
机器学习/深度学习 人工智能 移动开发
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
463 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 定位技术
举出其他监督学习,无监督学习,强化学习的例子?说一下非显著式编程的优势?AlphaGo的胜利,带给我们什么样的人生启示?当代大学生如何在人工智能时代增加自己的核心竞争力?
举出其他监督学习,无监督学习,强化学习的例子?说一下非显著式编程的优势?AlphaGo的胜利,带给我们什么样的人生启示?当代大学生如何在人工智能时代增加自己的核心竞争力? 监督学习:比如手写体识别,我们将许多汉字的手写数字图像数据作为训练数据。汉字的数据的分类目标被称作标签和类。训练数据有一个标签(某一个汉字),根据标签可以找到关于手写数字图像的正确答案信息,例如“此手写数字图像为‘人’”。在学习阶段,当将手写汉字图像输入系统时,调整系统的参数以尽量将输入图像分类为正确的标签,最后进行识别输出正确结果。 无
161 0
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1540 0
与世界同行 2017中国人工智能大会有感

热门文章

最新文章