测试多线程对多核cpu的分支预测的影响-阿里云开发者社区

测试多线程对多核cpu的分支预测的影响

2012-07-09 973

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言：现代的cpu都有流水线，分支预测功能，CPU的分支预测准确性可以达到98%以上，但是如果预测失败，则流水线失效，性能损失很严重。

前言：

现代的cpu都有流水线，分支预测功能，CPU的分支预测准确性可以达到98%以上，但是如果预测失败，则流水线失效，性能损失很严重。

CPU使用的分支预测技术可以参考：

处理器分支预测研究的历史和现状.pdf

同时多线程处理器上的动态分支预测器设计方案研究.pdf

正确地利用这些特性，可以写出高效的程序。

比如在写if，else语句时，应当把大概率事件放到if语句中，把小概率事件放到else语句中。

但是通常这种考虑都是基于单线程的，在多线程下有可能出现意外情况，比如多个线程同时执行同一处的代码。

测试：

下面基于Intel Core i5的一些多线程分支预测的测试。

测试思路（真实测试时发现不止以下三种情况，详细见下面的测试结果）：

两个线程执行同一处代码，而if判断总为true。

两个线程执行同一处代码，一个的if判断总为true，另一个的if判断时为true，时为false。

两个线程执行不同的代码（逻辑功能一样，只是位置不同），一个的if判断总为true，另一个的if判断时为true，时为false。

代码如下：

其中test1测试的是同一处代码，当传入偶数参数时，则if判断总为true，当传入奇数参数时，if判断时为true时为false。

test2函数测试的是不同一处的代码，当传入偶数参数时，则if判断总为true，当传入奇数参数时，if判断时为true时为false。

import java.util.concurrent.CountDownLatch;
public class Test {
	public static int loop = 1000000000;
	public static int sum = 0;
	public static CountDownLatch startGate;
	public static CountDownLatch endGate;
	
	public static void test1(int x1, int x2) throws InterruptedException{
		startGate = new CountDownLatch(1);
		endGate = new CountDownLatch(2);
		new Thread(new T1(x1)).start();
		new Thread(new T1(x2)).start();
		Test.startGate.countDown();
		Test.endGate.await();
	}
	public static void test2(int x1, int x2) throws InterruptedException{
		startGate = new CountDownLatch(1);
		endGate = new CountDownLatch(2);
		new Thread(new T1(x1)).start();
		new Thread(new T2(x2)).start();
		Test.startGate.countDown();
		Test.endGate.await();
	}
}

class T1 implements Runnable{
	int xxx = 0;
	public T1(int xxx){
		this.xxx = xxx;
	}
	@Override
	public void run() {
		try {
			int sum = 0;
			int temp = 0;
			Test.startGate.await();
			long start = System.nanoTime();
			for(int i = 0; i < Test.loop; ++i){
				temp += xxx;
				if(temp % 2 == 0){
					sum += 100;
				}else{
					sum += 200;
				}
			}
			Test.sum += sum;
			long end = System.nanoTime();
			System.out.format("%s, T1(%d): %d\n", Thread.currentThread().getName(), xxx, end - start);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}finally{
			Test.endGate.countDown();
		}
	}
}
class T2 implements Runnable{
	int xxx = 0;
	public T2(int xxx){
		this.xxx = xxx;
	}
	@Override
	public void run() {
		try {
			int sum = 0;
			int temp = 0;
			Test.startGate.await();
			long start = System.nanoTime();
			for(int i = 0; i < Test.loop; ++i){
				temp += xxx;
				if(temp % 2 == 0){
					sum += 100;
				}else{
					sum += 200;
				}
			}
			Test.sum += sum;
			long end = System.nanoTime();
			System.out.format("%s, T2(%d): %d\n", Thread.currentThread().getName(), xxx, end - start);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}finally{
			Test.endGate.countDown();
		}
	}
}

因为测试的情况多种，简洁表述如下：

一个test1函数会有两个结果，如test1(2, 3)得到两个结果2.1s，2.2s，表示两个线程执行同一份代码，一个的if判断总是true（2是偶数），另一个的总是false（3是奇数），其中第一个线程平均执行一次计算的时间是2.1s，第二个线程平均执行一次计算的时间是2.2s。

测试的main函数中有两个for循环，每个10次。在表述测试结果时，用简略表示，如：

一行数据表示执行一次main函数的结果，后面的时间是粗略平均计算得到的

test1(2,3)

2.1s

test1(2,4)

2.1s

main函数：

	public static void main(String[] args) throws InterruptedException {
		for(int i = 0; i < 10; ++i){
			test1(2, 3);
		}
		System.out.println("!!!!!!!!!!!!!!!!!!!!");
		for(int i = 0; i < 10; ++i){
			test1(2, 4);
		}		
	}

测试结果如下：

1	test1(2,3)	2.0s	2.0s	test1(2,4)	1.8s	2.0s
2	test1(2,4)	1.3s	1.3s	test1(2,3)	1.3s	1.8s
3
4	test2(2,3)	1.3s	1.7s	test2(2,4)	1.3s	1.9s
5	test2(2,4)	1.3s	1.3s	test2(2,3)	1.3s	1.8s

先来分析第1行数据，test1(2,3)的结果是最坏的，显然这是因为两个线程执行同一份代码，且两者的分支预测结果互相干扰，导致总是不准。

但是为什么后面的test1(2,4)的结果也是比较差？尽管两个线程执行的是同一份代码，但是两个线程中if的判断都总是true，为什么会出现耗时比较多的情况？

简单推测1：可能是之前的test1(2,3)影响了test1(2,4)的分支预测的结果，分支预测器中有历史表，前面执行的分支预测历史会影响后面的选择。

再来分析第2行，显然test1(2,4)是最好的结果，两个线程执行同一份代码，且if总是为true。再看第2行的test(2,3)结果，比第1行的要好，为什么这个和第1行的数据差这么多？

简单推测2：应该是不同的核有自己的分支预测器。

再来看test2函数的测试结果，从第4行来看，test2(2,3)的结果符合预期，但是显然test2(2,4)的结果不理想，为什么两个线程执行不同地方的代码，if判断总是true，结果会不同？

简单推测3：受test(2,3)的结果的影响，结合简单推测1和2，就可以理解为什么test(2,4)的前一个结果是1.3s，后一个是1.9s了。

再来分析第5行数据，这行数据完全符合预期。

总结：

推测：i5的分支预测器是一个混合的分支预测器。每个核都有历史表，每一个核都有自己的分支预测器。

多线程下的分支预测并不是很乐观，如果可以避开多个线程执行同一份代码，且分支预测条件的结果总是变化，则尽量避开。

测试多线程对多核cpu的分支预测的影响

前言：

测试：

总结：

热门文章

最新文章

相关课程

相关电子书

相关实验场景