parallelStream()并行滥用的后果
背景 对于java开发从业人员来说,并发编程是绕不开的话题,juc并发包下提供了一系列多线程场景解决方案。 随着jdk1.8的普及,多线程处理问题,除了使用使用线程池(ExecutorService),很多人选择了parallelStream() 并行流,底层使用forkjoin实现并行处理。 那么并行和并发又有什么区别?究竟改如何选择?滥用时又会有什么影响? 这些问题我分以下几篇文章进行详细说
背景
对于java开发从业人员来说,并发编程是绕不开的话题,juc并发包下提供了一系列多线程场景解决方案。
随着jdk1.8的普及,多线程处理问题,除了使用使用线程池(ExecutorService),很多人选择了parallelStream() 并行流,底层使用forkjoin实现并行处理。
那么并行和并发又有什么区别?究竟改如何选择?滥用时又会有什么影响?
这些问题我分以下几篇文章进行详细说明:
1. 多线程并发和并行的区别
2. parallelStream()并行滥用的后果 (本文)
3. forkjoin和forkjoinpool讲解
4. 线程池正确用法
坑点挨个举例
线程不安全
随着java8 stream的普及,很多人开始使用并行流parallelStream(),进行并行计算,很多人会忽略一个问题:
parallelStream()加入这行代码,就成了多线程,HaashMap线程不安全,会导致各种多线程问题。
// 线程不安全的错误例子
HashMap<String, Object> hashMap = new HashMap<>();
numList.parallelStream().forEach(curr -> {
hashMap.put(curr);
});
// 应该使用ConcurrentHashMap
ConcurrentHashMap<String, Object> concurrentHashMap = new ConcurrentHashMap<>();
numList.parallelStream().forEach(curr -> {
concurrentHashMap.put(curr);
});
公共commonPool导致程序卡顿
cpu和内存都正常的情况下,生产环境遇到一次,脚本卡住几个小时才执行完,线程堆栈分析发现在下面代码线程进入waiting状态,而且是偶发。
parallelStream()底层用的ForkJoinPool.commonPool();进行并行计算。代码中多个脚本同时用到parallelStream时,会共用线程池,一个脚本io慢,其他脚本都等等,用到的脚本越多,卡的时间越长。
这一点非常重要:大部分人使用parallelStream不知道底层原理,把parallelStream当做多线程使用,这个非常危险,用的地方越多,程序卡顿时间越长。
// 脚本a
aaaList.parallelStream().forEach(curr -> {
// 大量数据库查询等脚本代码
});
// 脚本b
bbbList.parallelStream().forEach(curr -> {
// 大量数据库查询等脚本代码
});
并行代码中Threadlocal失效
java开发中,我们经常会用到Threadlocal。parallelStream()是一个隐式线程池,比如:读写分离的连接名称、request通用获取等等,并行代码块中都将失效。
parallelStream()正确用法
- cpu密集型的运算
parallelStream底层使用和cpu核数一样多的ForkJoinPool并行计算,适合cpu密集型业务直接使用。
// 正常使用即可,并行为计算而生
aaaList.parallelStream().forEach(curr -> {
// 正常编写业务代码
});
- io密集的多线程场景
首先io密集场景适合使用线程池,不建议使用parallelStream()
如果非要使用,可以做如下优化:
io密集的业务,消耗cpu较少,出现慢sql等场景会导致线程等待,不能使用默认ForkJoinPool.commonPool(),自定义ForkJoinPool。
// 并行代码放到ForkJoinPool中执行,就不再使用公共ForkJoinPool.commonPool()
ForkJoinPool forkJoinPool = new ForkJoinPool();
forkJoinPool.execute(() -> {
aaaList.parallelStream().forEach(curr -> {
// 正常编写业务代码
});
});
注意事项总结
- 并行代码块中需要使用AtomicInteger、ConcurrentHashMap等线程安全类。
- parallelStream默认使用的commonPool,在io密集场景下不可大量使用
- 数量级小的计算就别用并行了,cpu切换耗时反而慢
- 在用到threadlocal的情景下,谨慎使用parallelStream和线程池,多线程中无法获取主线程的threadlocal。
- 如果完全不懂parallelStream底层原理,建议不要使用
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)