开发反馈,线上有个服务在运行一段时间后,就会抛异常导致redis缓存不可用。项目使用了j2caceh,异常是j2cache的rediscacheprovider抛出来的,如:
j2cache:红薯开源的2阶段缓存框架:https://gitee.com/ld/j2cache
从异常日志表象上看,很明显是由于jedis pool中没有资源了。当jedis pool没有资源,而客户端去申请连接时,框架预留了一个由用户控制的策略来处理,具体策略如下:
连接池参数 : blockwhenexhausted,有如下两种策略
true:阻塞等待maxwaitmillis时间(默认), 这个是默认的策略,当pool没有可用资源时,阻塞等待maxwaitmillis时间,这个值默认时间无限长的,连接池应该设置一个适当的等待时间fal:当无可用连接时,立即失败。我们的服务并没有设置whenexhaustedaction 的参数,maxwait设置的是1500。也就是说当jedis pool没有可用资源时,获取连接的线程等待了1.5秒,1.5秒后还没有可用资源就抛异常了。
回到上面的问题,导致jedis pool原因有哪些呢?无外乎两点,如下:
1、正常情况:程序并发高,导致偶发性的连接池无可用资源2、异常情况:连接池使用不当,当从连接池获取资源后,使用完时没有正常的释放资源,导致连接池取一个少一个,最后必然性的会抛出开头的异常结合上面对jedis pool的分析,而我们的服务并发度不高,默认连接池最大连接有8个,而且获取连接的线程在等待1.5秒后还是没有获取到线程,最重要的一点是,当程序跑到最后,获取不到连接的异常不在是偶发性的,
变成了必然性的事件了,那么根据上面这些分析,先假设问题就是由于程序中连接池使用不当导致的问题。程序使用jedis的地方是j2cach西南交通大学专业e,红薯开源的一个2阶缓存框架,很可能是红薯的锅。
通过对问题的假设,我们需要在程序中找到从jedis pool中获取资源的代码,那首先需要找到初始化连接池的地方,j2cache里是通过rediscacheprovider来维护jedis pool的。下面是j2cache里通过jedis pool的连接操作redis的代码,可以看到,非常规范,通过try,catch,finally将资源操作包起来了,并且在finally中释放了资源,保证资源一定会被释放
红薯表示这个锅我不背,肯定不是j2cache的毛病了。可以看到rediscacheprovider初始化连接池后,提供了一个静态方法getresource()用于获取连接,很可能是业务层面通过这个入口,拿到rediscacheprovider里的连接了。后面继续找,定位到了一个非常有嫌疑的方法,代码如下:
可以看到,这是一段和j2cache相关的代码,但是不是红薯的框架内的,是我们开发在接入j2cache时配置的一个缓存通道内的一段代码。问题就出在通过
rediscacheprovider.getresource()拿到jedis对象后,使用完,并没有释放。
上面基本定位到问题了,下面我们模拟下发生的问题的场景,代码逻辑和上面的类似,我们初始化一个连接池后,在一个for循环中,模拟多次获取连接但是不释放,如:
上面代码的运行效果如:
而且是必然出现的,在第八次的时候,因为没有可用的连接,导致程序在等待1.5秒后抛出了异常
综上,我们可以肯定是由于这里的代码使用不规范,导致的连接池连接泄漏了。代码修改也非常简单,在finally中判断下jeids对象是否为null,不为null则调用其clo方法,将资源回收即可。
上文所述场景中有个地方埋了一个小彩蛋,感兴趣的小伙伴可以找下,在下方留言交流。
你以为就上面的就这么完了,还没呢,待续ing
其实上面获取jedis资源的代码是没有问题,刚开始忽略了一个细节,try (jedis jedis = rediscacheprovider.getresour天道有常ce()) 。获取资源的动作是放在try()里的,java1.7引入了try-with-resources
语义,我们使用的jedis版本已经实现了jdk的autocloable接口。所以,上面这段代码在编译器编译后会变成如下的样子:
可以看到,编译器自动帮我们织入了想要在finally代码块内关闭连接的动作。
如果不是连接泄漏导致的,那么肯定是并发问题了,最终的异常是j2cache抛出来的,从j2cache里获取连接的地方如下:
可以看到最上面红框里的是之前说的有问题,其实没有问题,他们都被包在了try里面了。中间的是红薯框架内部用的,都手动释放连接了。最后一个连接有点小问题,自然环境描写的作用qrviceimpl是spring管理的一骆驼祥子读后感600字个实例,
因为是单例的实例,所以这里只会长期占用一个连接。除了这里占用了一个连接,上面三个在try里的连接,其中一个是订阅redis消息的,代码如下:
注意这个jedis.subscribe()。其实是个阻塞操作。也就是说即使编辑器给这个地方加上了资源释放的代码,在订阅不出问题的情况下,也跑不到资源释放的地方。所以这里也会长期占用一个连接。
那么我们在程序里可用的连接数=(最大连接数-两个长期占用连接)=(8-2)=6个
从异常信息获取点有用信息,最终发现,抛出连接不可用的代码有共性,都指向了一个类,但是是两个方法,如:
作文难忘的一件事
最终跟踪代码发现,这个两个方法是给鉴权拦截器调用的,拦截器会拦截每个请求,代码语义类似下面,
也就是每个请求都至少会对redis操作两次,在没有完成之前都不会释放资源。
在看看抛异常的时间点的服务访问情况,在日志平台将时间限定在2019-06-03 17:45~2019-06-03 17:46 ,搜索结果如下:
从06-03 17:45:49 到 06-03 17:45:56 日志总条数299条。每秒请求数=(299/56-49)=42 。omygad的,连接池只有6个可用连接完全不够用。这回真的石锤了。
设置连接池的maxtotal参数即可,但是有个问题是,这个项目使用的j2cache的版本比较老,代码的配置信息限定死了就那么个几个,而且没有预留maxtotal的设置。红薯的初始化连接池的代码如下:
怎么办类,组件代码不好改啊,java的黑科技反射解决问题,不走寻常路,不使用start方法初始化连接池,直接自己初始化一个连接池设置给pool属性。伪代码如下:
以上就是j2cache线上异常排查问题解决记录分析的详细内容,更多关于j2cache线上异常排查问题解决的资料请关注www.887551.com其它相关文章!
本文发布于:2023-04-05 22:06:41,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/2462db3857ea4b5a968992821f97252b.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:j2Cache线上异常排查问题解决记录分析.doc
本文 PDF 下载地址:j2Cache线上异常排查问题解决记录分析.pdf
留言与评论(共有 0 条评论) |