java nio的一个严重BUG

简介:
   这个BUG会在linux上导致cpu 100%,使得nio server/client不可用,具体的详情可以看这里 http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6403933 。令人失望的是这个BUG直到jdk 6u4才解决,sun的拖沓让人难以相信。这个BUG在server端容易出现,因为server端有频繁地接入断开连接。
   
    使用jdk 6u4之前版本的nio框架都有这个隐患,除非你的框架很好地处理了这个可能的隐患。Grizzly的处理方式比较简单,也就是BUG报告里面提到的方式,在SelectionKey.cancel()之后马上进行了一次select调用将fd从poll(epoll)中移除:
this .selectionKey.cancel();
try  {
            
//  cancel key,then select now to remove file descriptor
             this .selector.selectNow();
 } 
catch  (IOException e) {
         onException(e);
        log.error(
" Selector selectNow fail " , e);
}

    实际上这样的解决方式还是留有隐患的,因为key的取消和这个selectNow操作很可能跟Selector.select操作并发地在进行,在两个操作之间仍然留有一个极小的时间窗口可能发生这个BUG。因此,你需要更安全地方式处理这个问题,jetty的处理方式是这样,连续的select(timeout)操作没有阻塞并返回0,并且次数超过了一个指定阀值,那么就遍历整个key set,将key仍然有效并且interestOps等于0的所有key主动取消掉;如果在这次修正后,仍然继续出现select(timeout)不阻塞并且返回0的情况,那么就重新创建一个新的Selector,并将Old Selector的有效channel和对应的key转移到新的Selector上,
                    long  before = now;
                    
int  selected = selector.select(wait);
                    now 
=  System.currentTimeMillis();
                    _idleTimeout.setNow(now);
                    _timeout.setNow(now);

                    
//  Look for JVM bugs
                    
//   http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6403933
                     if  (__JVMBUG_THRESHHOLD > 0   &&  selected == 0   &&  wait > __JVMBUG_THRESHHOLD  &&  (now - before) < (wait / 2 ) )
                    {
                        _jvmBug
++ ;
                        
if  (_jvmBug >= (__JVMBUG_THRESHHOLD2))
                        {
                            
synchronized  ( this )
                            {
                                _lastJVMBug
= now;
                   
                                //  BLOODY SUN BUG !!!  Try refreshing the entire selector.
                                 final  Selector new_selector  =  Selector.open();
                                
for  (SelectionKey k: selector.keys())
                                {
                                    
if  ( ! k.isValid()  ||  k.interestOps() == 0 )
                                        
continue ;
                                    
                                    
final  SelectableChannel channel  =  k.channel();
                                    
final  Object attachment  =  k.attachment();
                                    
                                    
if  (attachment == null )
                                        addChange(channel);
                                    
else
                                        addChange(channel,attachment);
                                }
                                _selector.close();
                                _selector
= new_selector;
                                _jvmBug
= 0 ;
                                
return ;
                            }
                        }
                        
else   if  (_jvmBug == __JVMBUG_THRESHHOLD  ||  _jvmBug == __JVMBUG_THRESHHOLD1)
                        {
                            
//  Cancel keys with 0 interested ops
                             for  (SelectionKey k: selector.keys())
                            {
                                
if  (k.isValid() && k.interestOps() == 0 )
                                {
                                    k.cancel();
                                }
                            }
                            
return ;
                        }
                    }
                    
else
                        _jvmBug
= 0 ;



    这个方案能比较好的在jdk 6u4之前的版本上解决这个BUG可能导致的问题。Mina和Netty没有看到有处理这个BUG的代码,如果我看错了,请留言告诉我。Yanf4j一直采用的是grizzly的方式,准备加上jetty的处理方案。当然,最简单的方案就是升级你的JDK :D

文章转自庄周梦蝶  ,原文发布时间2009-09-28

目录
相关文章
|
5天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之在使用MaxCompute的Java SDK创建函数时,出现找不到文件资源的情况,是BUG吗
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
19 0
|
2月前
|
存储 Java 数据处理
|
2月前
|
Java API
java中IO与NIO有什么不同
java中IO与NIO有什么不同
|
9天前
|
网络协议 Java Linux
Java基础BIO、NIO、AIO小结(下)
Java基础BIO、NIO、AIO小结(下)
16 0
|
9天前
|
缓存 Java 测试技术
Java基础BIO、NIO、AIO小结(上)
Java基础BIO、NIO、AIO小结
17 0
|
12天前
|
缓存 Java API
Java NIO和IO之间的区别
NIO(New IO),这个库是在JDK1.4中才引入的。NIO和IO有相同的作用和目的,但实现方式不同,NIO主要用到的是块,所以NIO的效率要比IO高很多。在Java API中提供了两套NIO,一套是针对标准输入输出NIO,另一套就是网络编程NIO。
14 1
|
16天前
|
监控 Java 开发者
深入理解 Java 网络编程和 NIO
【4月更文挑战第19天】Java网络编程基于Socket,但NIO(非阻塞I/O)提升了效率和性能。NIO特点是非阻塞模式、选择器机制和缓冲区,适合高并发场景。使用NIO涉及通道、选择器和事件处理,优点是高并发、资源利用率和可扩展性,但复杂度、错误处理和性能调优是挑战。开发者应根据需求选择是否使用NIO,并深入理解其原理。
|
19天前
|
存储 监控 Java
浅谈Java NIO
浅谈Java NIO
6 0
|
19天前
|
消息中间件 存储 Java
【Java NIO】那NIO为什么速度快?
是这样的,在NIO零拷贝出现之前,一个I/O操作会将同一份数据进行多次拷贝。可以看下图,一次I/O操作对数据进行了四次复制,同时来伴随两次内核态和用户态的上下文切换,众所周知上下文切换是很耗费性能的操作。
26 0
【Java NIO】那NIO为什么速度快?
|
21天前
|
存储 监控 Java
Java输入输出:什么是NIO(New I/O)?
Java NIO是一种高效I/O库,特征包括非阻塞性操作、通道(如文件、网络连接)、缓冲区和选择器。选择器监控通道状态变化,通知应用程序数据可读写,避免轮询,提升性能。示例代码展示了一个使用NIO的服务器,监听连接、读取数据并处理客户端通信。
14 1