你应该知道的C语言性能提升法之结构体优化

2023-12-20 16:00:32

在这里插入图片描述
前两天码哥写了一篇《你应该知道的C语言Cache命中率提升法》的文章，讲述关于地址连续性带来的cache命中率提升，感兴趣的朋友可以先翻看一番。

今天的文章是关于如何优化结构体成员来提升cache命中率的。我们先来看一个例子：

代码一

/* a.c */
#include <stdio.h>
#include <sys/time.h>

typedef struct test_s {
    long i0;
    char padding0[1024];
    long i1;
    char padding1[1024];
    long i2;
    char padding2[1024];
    long i3;
    char padding3[1024];
    long i4;
    char padding4[1024];
    long i5;
    char padding5[1024];
    long i6;
    char padding6[1024];
    long i7;
    char padding7[1024];
    long i8;
    char padding9[1024];
    long i9;
} test_t;

int main(void)
{
    test_t arr[512];
    int i;
    struct timeval begin, end;
    gettimeofday(&begin, NULL);
    for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
        arr[i].i0 = 0;
        arr[i].i1 = 1;
        arr[i].i2 = 2;
        arr[i].i3 = 3;
        arr[i].i4 = 4;
        arr[i].i5 = 5;
        arr[i].i6 = 6;
        arr[i].i7 = 7;
        arr[i].i8 = 8;
        arr[i].i9 = 9;
    }
    gettimeofday(&end, NULL);
    printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
    return 0;
}

功能很简单，我们定义了一个结构体，其中有很多padding，这些padding是用来模拟日常项目中不常访问的结构体成员。然后我们定义了这样一个结构体数组，顺序访问每个结构体，并将其中的整型成员进行赋值，并度量这一循环的时间开销。

在码哥的测试机上，执行的结果大约是：

$ ./a
2487(us)

参考我们之前的那篇关于地址连续性带来cache命中率提升想法，上面这个例子是否有性能提升的空间呢？

答案当然是有的。请看下面的代码：

代码二

/* b.c */
#include <stdio.h>
#include <sys/time.h>

typedef struct test_s {
    long i0;
    long i1;
    long i2;
    long i3;
    long i4;
    long i5;
    long i6;
    long i7;
    long i8;
    long i9;
    char padding0[1024];
    char padding1[1024];
    char padding2[1024];
    char padding3[1024];
    char padding4[1024];
    char padding5[1024];
    char padding6[1024];
    char padding7[1024];
    char padding8[1024];
} test_t;

int main(void)
{
    test_t arr[512];
    int i;
    struct timeval begin, end;
    gettimeofday(&begin, NULL);
    for (i = 0; i < sizeof(arr)/sizeof(test_t); ++i) {
        arr[i].i0 = 0;
        arr[i].i1 = 1;
        arr[i].i2 = 2;
        arr[i].i3 = 3;
        arr[i].i4 = 4;
        arr[i].i5 = 5;
        arr[i].i6 = 6;
        arr[i].i7 = 7;
        arr[i].i8 = 8;
        arr[i].i9 = 9;
    }
    gettimeofday(&end, NULL);
    printf("%lu(us)\n", (end.tv_sec*1000000+end.tv_usec)-(begin.tv_sec*1000000+begin.tv_usec));
    return 0;
}

可以看到，这段代码中出了结构体中成员的位置有所调整外，其余代码都是一致的，甚至结构体的大小都是一样的。

那么这段代码的执行时间又是如何的呢？

$ ./b
1034(us)

可以看到这个结果比代码一快了1倍左右。

总结

为何会快出1倍，原因与地址连续性依旧有关。代码二中，常被访问的10个整型成员被安排在了一起，这样当访问其中一个时，可以尽可能多的将可能被访问的成员预加载到cache中。而代码一中，由于间隔了很多padding，且每个padding也比较大，因此cache缓存了很多不常被访问的部分，所以在我们给每一个整型赋值时都无法利用到前一次赋值的cache缓存，因此效率有所降低。

结论很简单，尽可能将常访问的结构体成员放在一起，甚至推荐贴近结构体开始处存放。

喜欢的朋友欢迎关注码哥，也可以在下方给码哥留言评论。

感谢阅读！

文章来源:https://blog.csdn.net/weixin_40960130/article/details/135102078
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！