密码延迟验证导致的系统HANG住

简介: 又是一个11g新特性导致的问题。 [@more@] 这个新特性很早之前就研究过,也在其他客户处碰到过类似的问题。从11g开始,如果一个用户使用不正确的密码尝试登录数据库,那么随着登录失败次数的增加,每次登录验证前延迟等待...

又是一个11g新特性导致的问题。

[@more@]

这个新特性很早之前就研究过,也在其他客户处碰到过类似的问题。从11g开始,如果一个用户使用不正确的密码尝试登录数据库,那么随着登录失败次数的增加,每次登录验证前延迟等待的时间也会增加:

SQL> set time on
18:30:54 SQL>
18:30:58 SQL> conn test/test
Connected.
18:31:25 SQL>
18:31:25 SQL> conn test/a
conn test/a
conn test/a
conn test/a
conn test/a
conn test/a
conn test/a
conn test/test
conn test/a
ERROR:
ORA-01017: invalid username/password; logon denied

Warning: You are no longer connected to ORACLE.
18:31:26 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:26 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:26 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:27 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:29 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:32 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

18:31:36 SQL> Connected.
18:31:36 SQL> ERROR:
ORA-01017: invalid username/password; logon denied

Warning: You are no longer connected to ORACLE.
18:31:36 SQL>

可以看到,从第三次密码错误的登录开始,每次延迟时间开始变成2秒、3秒并一次递增。既是这时提供正确的密码登录,会话也会延迟N秒,然后进行验证。不过一旦验证成功,会将失败计数清零,后续的错误登录会重新计数。

不过这只是单一会话尝试失败登录的情况,如果同时存在两个会话,则很快延迟验证时间就会达到10秒、20秒的级别。如果同时大量的连接采用错误的密码,基本上这个用户的登录就会被完全HANG住。

客户的数据库就出现了类似的情况,数据库版本为11.2.0.3 RAC,在数据库中观察,三个节点每个节点的会话数都接近SESSIONS参数设置的上线3000,而后台高级日志已经出现了ORA-20错误。由于客户系统的关键用户只有一个,因此几乎所有的会话都无法正常的登录到数据库中。而在数据库上发现,大量的会话用户名、EVENT以及PROGRAM都信息都是NULL,这说明这些会话还没有完成验证成功的登录到数据库中。而当前主机的CPU资源使用并不高,那些已经连接到数据库中的进程也可以正常的工作。尝试使用SYSTEM等其他用户发现可以迅速的登录数据库。所有这一切都已经说明,当前有一个或多个中间件服务器在使用错误的密码连接数据库,由于密码延迟验证的策略,导致所有后续的连接都被HANG住。

任何一个新特性带来性能或功能上的提高的同时,也会引入相关的bug,显然这个安全性上的考虑,有时候也会带来验证的性能问题,甚至成为用来攻击数据库的一种手段。

之前几次并没有给出彻底屏蔽密码延迟验证的手段,而Oracle最强大之处就在于几乎所有的功能和特性都有对应的开关,通过设置EVENTS 28401可以屏蔽密码延迟验证:

SQL> ALTER SYSTEM SET EVENT = ‘28401 TRACE NAME CONTEXT FOREVER, LEVEL 1’ SCOPE = SPFILE

设置该事件后重启数据库即可。

目录
相关文章
|
11月前
|
存储 测试技术
kindle 应用程序出错,无法启动选定的应用程序,请重试。问题排查过程及处理方案。...
kindle 应用程序出错,无法启动选定的应用程序,请重试。问题排查过程及处理方案。...
305 0
|
缓存 NoSQL 关系型数据库
MySQL客户端连接登入hang住原因分析
MySQL客户端连接登入hang住原因分析
132 0
「WGCLOUD」指令下发后需要多长时间执行完成
「WGCLOUD」的指令下发后需要多长时间执行完成
「WGCLOUD」指令下发后需要多长时间执行完成
|
分布式计算 Hadoop 开发者
掉线时限参数设置| 学习笔记
快速学习掉线时限参数设置
115 0
掉线时限参数设置| 学习笔记
|
存储 NoSQL
3.10.0-693.5.2内核nfs客户端租约过期挂死问题分析
## 现象 1. 边缘存储两个节点fileserver,glance挂载物理机上的挂载点均出现挂住无法访问 2. 从客户端抓包看,客户端内核间隔5s向服务端发送renew租约请求,服务端返回NFS4ERR_EXPIRED,即租约过期错误,从抓包现象看客户端一直向服务端发送相同的clientid renew请求,服务端一直返回租约过期错误,导致挂载点无法恢复 ![](https://ata2-img
1319 1
3.10.0-693.5.2内核nfs客户端租约过期挂死问题分析
|
网络协议
服务器检测到客户端退出或崩溃后,如何优雅地做出反应
目前我的TCP客户端一旦退出,服务器就跟着挂了,这肯定不行。
服务器检测到客户端退出或崩溃后,如何优雅地做出反应
|
存储 运维 算法
CPU静默数据错误:存储系统数据不丢不错的设计思考
对于数据存储系统来说,保障数据不丢不错是底线,也是数据存储系统最难的部分。据统计,丢失数据中心10天的企业,93%会在1年内破产。那么如果想要做到数据不丢不错,我们可以采取怎样的措施呢?
CPU静默数据错误:存储系统数据不丢不错的设计思考
|
数据安全/隐私保护 Windows 流计算
|
网络协议 数据安全/隐私保护 安全