你应该知道的C语言性能提升法之结构体优化

2023-12-20 16:00:32

在这里插入图片描述
前两天码哥写了一篇《你应该知道的C语言Cache命中率提升法》的文章,讲述关于地址连续性带来的cache命中率提升,感兴趣的朋友可以先翻看一番。

今天的文章是关于如何优化结构体成员来提升cache命中率的。我们先来看一个例子:

代码一
/* a.c */
#include <stdio.h>
#include <sys/time.h>

typedef struct test_s {
    long i0;
    char padding0[1024];
    long i1;
    char padding1[1024];
    long i2;
    char padding2[1024];
    long i3;
    char padding3[1024];
    long i4;
    char padding4[1024];
    long i5;
    char padding5[1024];
    long i6;
    char padding6[1024];
    long i7;
    char padding7[1024];
    long i8;
    char padding9[1024];
    long i9;
} test_t;

int main(void)
{
    test_t arr[512];
    int i;
    struct timeval begin, end;
    gettimeofday(&begin, NULL);
    for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
        arr[i].i0 = 0;
        arr[i].i1 = 1;
        arr[i].i2 = 2;
        arr[i].i3 = 3;
        arr[i].i4 = 4;
        arr[i].i5 = 5;
        arr[i].i6 = 6;
        arr[i].i7 = 7;
        arr[i].i8 = 8;
        arr[i].i9 = 9;
    }
    gettimeofday(&end, NULL);
    printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
    return 0;
}

功能很简单,我们定义了一个结构体,其中有很多padding,这些padding是用来模拟日常项目中不常访问的结构体成员。然后我们定义了这样一个结构体数组,顺序访问每个结构体,并将其中的整型成员进行赋值,并度量这一循环的时间开销。

在码哥的测试机上,执行的结果大约是:

$ ./a
2487(us)

参考我们之前的那篇关于地址连续性带来cache命中率提升想法,上面这个例子是否有性能提升的空间呢?

答案当然是有的。请看下面的代码:

代码二
/* b.c */
#include <stdio.h>
#include <sys/time.h>

typedef struct test_s {
    long i0;
    long i1;
    long i2;
    long i3;
    long i4;
    long i5;
    long i6;
    long i7;
    long i8;
    long i9;
    char padding0[1024];
    char padding1[1024];
    char padding2[1024];
    char padding3[1024];
    char padding4[1024];
    char padding5[1024];
    char padding6[1024];
    char padding7[1024];
    char padding8[1024];
} test_t;

int main(void)
{
    test_t arr[512];
    int i;
    struct timeval begin, end;
    gettimeofday(&begin, NULL);
    for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
        arr[i].i0 = 0;
        arr[i].i1 = 1;
        arr[i].i2 = 2;
        arr[i].i3 = 3;
        arr[i].i4 = 4;
        arr[i].i5 = 5;
        arr[i].i6 = 6;
        arr[i].i7 = 7;
        arr[i].i8 = 8;
        arr[i].i9 = 9;
    }
    gettimeofday(&end, NULL);
    printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
    return 0;
}

可以看到,这段代码中出了结构体中成员的位置有所调整外,其余代码都是一致的,甚至结构体的大小都是一样的。

那么这段代码的执行时间又是如何的呢?

$ ./b
1034(us)

可以看到这个结果比代码一快了1倍左右。

总结

为何会快出1倍,原因与地址连续性依旧有关。代码二中,常被访问的10个整型成员被安排在了一起,这样当访问其中一个时,可以尽可能多的将可能被访问的成员预加载到cache中。而代码一中,由于间隔了很多padding,且每个padding也比较大,因此cache缓存了很多不常被访问的部分,所以在我们给每一个整型赋值时都无法利用到前一次赋值的cache缓存,因此效率有所降低。

结论很简单,尽可能将常访问的结构体成员放在一起,甚至推荐贴近结构体开始处存放。



喜欢的朋友欢迎关注码哥,也可以在下方给码哥留言评论。

感谢阅读!

文章来源:https://blog.csdn.net/weixin_40960130/article/details/135102078
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。