背景

 对于java开发从业人员来说,并发编程是绕不开的话题,juc并发包下提供了一系列多线程场景解决方案。
 随着jdk1.8的普及,多线程处理问题,除了使用使用线程池(ExecutorService),很多人选择了parallelStream() 并行流,底层使用forkjoin实现并行处理。
 那么并行和并发又有什么区别?究竟改如何选择?滥用时又会有什么影响?
  这些问题我分以下几篇文章进行详细说明:
  1. 多线程并发和并行的区别
  2. parallelStream()并行滥用的后果 (本文)
  3. forkjoin和forkjoinpool讲解
  4. 线程池正确用法

坑点挨个举例

线程不安全

 随着java8 stream的普及,很多人开始使用并行流parallelStream(),进行并行计算,很多人会忽略一个问题:
 parallelStream()加入这行代码,就成了多线程,HaashMap线程不安全,会导致各种多线程问题。

		// 线程不安全的错误例子
		HashMap<String, Object> hashMap = new HashMap<>();
        numList.parallelStream().forEach(curr -> {
            hashMap.put(curr);
        });
		// 应该使用ConcurrentHashMap
		ConcurrentHashMap<String, Object> concurrentHashMap = new ConcurrentHashMap<>();
        numList.parallelStream().forEach(curr -> {
            concurrentHashMap.put(curr);
        });

公共commonPool导致程序卡顿

 cpu和内存都正常的情况下,生产环境遇到一次,脚本卡住几个小时才执行完,线程堆栈分析发现在下面代码线程进入waiting状态,而且是偶发。
 parallelStream()底层用的ForkJoinPool.commonPool();进行并行计算。代码中多个脚本同时用到parallelStream时,会共用线程池,一个脚本io慢,其他脚本都等等,用到的脚本越多,卡的时间越长。
这一点非常重要:大部分人使用parallelStream不知道底层原理,把parallelStream当做多线程使用,这个非常危险,用的地方越多,程序卡顿时间越长。

		// 脚本a
		aaaList.parallelStream().forEach(curr -> {
            // 大量数据库查询等脚本代码
        });

		// 脚本b
		bbbList.parallelStream().forEach(curr -> {
            // 大量数据库查询等脚本代码
        });

并行代码中Threadlocal失效

 java开发中,我们经常会用到Threadlocal。parallelStream()是一个隐式线程池,比如:读写分离的连接名称、request通用获取等等,并行代码块中都将失效。

parallelStream()正确用法

  • cpu密集型的运算
    parallelStream底层使用和cpu核数一样多的ForkJoinPool并行计算,适合cpu密集型业务直接使用。
		// 正常使用即可,并行为计算而生
		aaaList.parallelStream().forEach(curr -> {
            // 正常编写业务代码
        });
  • io密集的多线程场景
    首先io密集场景适合使用线程池,不建议使用parallelStream()
    如果非要使用,可以做如下优化:
    io密集的业务,消耗cpu较少,出现慢sql等场景会导致线程等待,不能使用默认ForkJoinPool.commonPool(),自定义ForkJoinPool。
		// 并行代码放到ForkJoinPool中执行,就不再使用公共ForkJoinPool.commonPool()
 		ForkJoinPool forkJoinPool = new ForkJoinPool();
        forkJoinPool.execute(() -> {
            aaaList.parallelStream().forEach(curr -> {
            // 正常编写业务代码
        });
        });

注意事项总结

  • 并行代码块中需要使用AtomicInteger、ConcurrentHashMap等线程安全类。
  • parallelStream默认使用的commonPool,在io密集场景下不可大量使用
  • 数量级小的计算就别用并行了,cpu切换耗时反而慢
  • 在用到threadlocal的情景下,谨慎使用parallelStream和线程池,多线程中无法获取主线程的threadlocal。
  • 如果完全不懂parallelStream底层原理,建议不要使用
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐