linux中哪些工具可以测试cuda程序,监控gpu内存性能

发布网友发布时间：2022-04-23 09:26

共2个回答

热心网友时间：2022-05-03 22:33

nvcc 编译代码
nvcc -o squareSum squareSum.cu运行结果：
CUDA initialized.
(GPU) sum:29909398 time:787124792
(CPU) sum:29909398 time:10000
从执行的结果可以看出， GPU 中运行的程序居然要比 CPU 中的消耗的时钟周期还要多得多。这是有原因的。
因为程序之中并没有使用 CUDA 并行执行的优势。
这里分析一下 GPU 运行的性能。
此 GPU 消耗的时钟周期： 787124792 cycles
GeForce G 103M 的 clockRate： 1.6 GHz
所以可以计算出 GPU 上运行时间是：时钟周期 / clockRate = 0.49195 s
1 M 个 int 型数据有 4M Byte 的数据量，实际使用的 GPU 内存带宽是：数据量 / 运行时间 = 8.13 MB/s
可见这个程序没有很好的发挥 GPU 的性能，使用的内存带宽很小。
没有有效利用 GPU 性能的原因？？？
在 CUDA 中，一般的数据复制到的显卡内存的部份，称为 global memory。这些内存是没有 cache 的，而且，存取 global memory 所需要的时间（即 latency）是非常长的，通常是数百个 cycles。
由于我们的程序只有一个 thread，所以每次它读取 global memory 的内容，就要等到实际读取到数据、累加到 sum 之后，才能进行下一步。这就是为什么它的表现会这么的差。实际上 GPU 一直在等待上一个数据运行的结束，然后再拷贝一个内存数据，所以使用的时钟周期自然就长了。
由于 global memory 没有 cache，所以要避开巨大的 latency 的方法，就是要利用大量的 threads。假设现在有大量的 threads 在同时执行，那么当一个 thread 读取内存，开始等待结果的时候，GPU 就可以立刻切换到下一个 thread，并读取下一个内存位置。因此，理想上当 thread 的数目够多的时候，就可以完全把 global memory 的巨大 latency 隐藏起来了。

热心网友时间：2022-05-03 23:51

看官网啊网页链接