天津大学、东京大学等研究:用深度强化学习检测模型缺陷

简介: 天津大学多智能体与深度强化学习实验室与东京大学、日本 AIST 研究所合作的一篇论文,提出利用深度强化学习方法来检测信息物理系统(CPS)模型中的缺陷。与传统方法相比,深度强化学习方法在大多数情况下能够通过更少次的模拟实验找出系统的缺陷。

随着AlphaGo的出现,掀起了深度强化学习(DRL)的浪潮。包括DeepMind、OpenAI在内的众多科研机构和高校都团队都致力于DRL的研究,DRL在游戏、智能机器人控制等领域也取得了不错的成效,如星际争霸相关游戏研发、机器人Atlas等。随着人工智能逐步走入人们的生活,信息物理系统的概念更加为人们熟知。信息物理系统(CPS, Cyber-Physical Systems)是一个综合计算、网络和物理环境的多维复杂系统,通过3C(Computer、Communication、Control)技术的有机融合与深度协作,实现大型工程系统的实时感知、动态控制和信息服务。主要用于一些智能系统上如设备互联,物联传感,智能家居,机器人,智能导航等。因此,信息物理系统(CPS)的安全检测问题成为了重中之重。

近日,软件工程形式化领域顶会FM2018(International Symposium on Formal Methods)接收了天津大学多智能体与深度强化学习实验室与东京大学、日本 AIST 研究所合作的一篇论文,提出利用深度强化学习方法来检测信息物理系统(CPS)模型中的缺陷。与传统方法(simulated annealing and cross entropy)相比,深度强化学习方法在大多数情况下能够通过更少次的模拟实验找出系统的缺陷。

这篇论文创新点为:首次将深度强化学习与违反CPS模型鲁棒性的问题型结合,并取得的较为显著的实验结果提出了新型测试框架

1)利用深度强化学习得到被测试系统的输入

2)把输入传入被测试系统,得到系统输出并计算收益值,作为下一轮学习的输入

3)循环以上步骤,检测缺陷。

CPS漏洞检测的传统方法

信息物理系统(CPS)在关键安全领域被应用得越来越广泛,这使得保证信息物理系统的正确性更加重要。在CPS模型上的测试和验证是保证其准确性的通用方法。同时由于CPS模型的状态空间是无限的,使得测试很难达到高覆盖率,验证技术昂贵并且不可判定。因此以鲁棒性为导向的falsification方法近期被认为是可以有效检测CPS缺陷的方法。

以鲁棒性为导向的falsification方法中,信号时序逻辑(STL)通常被用于表示CPS模型应该满足的(鲁棒性)性质。本文提出用以鲁棒性为导向的falsification技术来探索CPS模型的状态空间,并将使鲁棒性最小化的行为序列确定为测试的候选项。利用这种方式,以鲁棒性为导向生成暴露模型缺陷的输入(也就是反例),这样能更有效的并且自动的进行缺陷检测。尽管falsification过程没有终止不代表没有反例,但是在给定的时间内未找到反例在一定程度上显示了CPS模型的正确性。

现有的以鲁棒性为导向的falsification方法采取随机全局优化的算法,比如模拟退火、交叉熵等,来达到最小化鲁棒性的目的。这些方法都把整条轨迹(行为序列)作为输入,因此在falsification过程中需要大量的模拟运行,进而无法保证在有限的时间内找到实际的CPS系统模型中的反例输入

基于强化学习的CPS模型性质falsification方法

本文应用DRL解决CPS模型违反鲁棒性性质的问题。强化学习方法可以观察环境反馈,然后及时调整输入行为。通过这种方式,该方法可以更快地收敛到最小的鲁棒性数值。本文采用了两种最先进的DRL技术:Asynchronous Advanced Actor Critic (A3C) 和 Double Deep-Q Network (DDQN)。

具体框架如图1所示:该框架的环境包括Matlab的模拟运行环境模块以及计算回报模块。采用经典的强化学习算法,代理(Agent)以系统的当前状态(state)和当前的回报值(reward)作为输入,然后输出下一个行为(action)作为模拟模块的输入。本框架的Agent采用了A3C和DDQN两种算法

1b96aac50aff578695663d7886ac05518118612a

图1:系统的整体框架

本文的主要贡献有:

(1)展示了怎样将找到违反CPS模型鲁棒性性质的行为序列的问题转化为深度强化学习(DRL)问题;

(2)实现提出的方法并进行初步评估,结果证明利用DRL技术可以减少寻找CPS模型致错输入需要的模拟运行次数,进而减少模拟运行的总时间。

(3)提出基于强化学习技术的CPS模型鲁棒性性质falsification问题的测试框架,为进一步探索该问题提供了保障。

本文提出的方法在原型系统中进行了实现,并采用广泛应用的CPS系统模型进行初步评估。实验结果表明,本文提出的方法可以减少发现伪造输入的次数。在自动传输控制系统上运行结果如图2 所示,基于强化学习的方法在成功率上一直优于其他baseline方法。在有限时间内,基于强化学习的方法更容易找到致错输入。

0d41d507a7681cb54745e4e8ae05caff52aab4d4

图2:在自动传输控制系统(AT)上运行结果

论文:Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning

80db365fa35249ae2cb22dcaae626dc25bbbc4da




原文发布时间为:2018-04-20

本文作者:段义海

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:天津大学、东京大学等研究:用深度强化学习检测模型缺陷

相关文章
|
2月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
23 1
Contextual发布生成式表征指导调整模型
|
7月前
|
机器学习/深度学习 算法 数据挖掘
ML |机器学习模型如何检测和预防过拟合?
ML |机器学习模型如何检测和预防过拟合?
97 0
|
3月前
|
机器学习/深度学习 人工智能 关系型数据库
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
148 0
|
8月前
|
计算机视觉
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
52 0
|
4月前
|
人工智能 算法 安全
训练数据集污染与模型算法攻击将成为AI新的棘手问题
【1月更文挑战第11天】训练数据集污染与模型算法攻击将成为AI新的棘手问题
72 3
训练数据集污染与模型算法攻击将成为AI新的棘手问题
|
1月前
|
机器学习/深度学习 人工智能 算法
基于AidLux的工业视觉少样本缺陷检测实战应用---深度学习分割模型UNET的实践部署
  工业视觉在生产和制造中扮演着关键角色,而缺陷检测则是确保产品质量和生产效率的重要环节。工业视觉的前景与发展在于其在生产制造领域的关键作用,尤其是在少样本缺陷检测方面,借助AidLux技术和深度学习分割模型UNET的实践应用,深度学习分割模型UNET的实践部署变得至关重要。
68 1
|
10月前
|
机器学习/深度学习 存储 数据可视化
使用卷积神经网络对晶圆图上的八种制造缺陷进行分类
使用简单的卷积神经网络 (CNN) 对晶圆图上的八种制造缺陷进行分类。
163 0
|
12月前
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
258 0
|
12月前
|
机器学习/深度学习 人工智能 算法
蛋白质领域的 ChatGPT,首次使用对比学习准确预测酶功能
蛋白质领域的 ChatGPT,首次使用对比学习准确预测酶功能
128 0
|
12月前
|
自然语言处理 PyTorch 算法框架/工具
识别形式语言能力不足,不完美的Transformer要克服自注意力的理论缺陷(2)
识别形式语言能力不足,不完美的Transformer要克服自注意力的理论缺陷