Cudnn占用大量内存问题
近来在对一个3D图像识别模型做部署裁剪时发现,做了一些有效的裁剪后,模型启动后占用的内存虽然减少了两三百个M,但是再继续对网络做裁剪缺减少不明显了,包含封装调用这个模型的deepstream插件在内始终占用800多个M,感觉很奇怪,于是花了些时间,捣腾琢磨网络本身的C++实现代码,找出哪些代码执行后占用了可观的内存,最后发现,其他跟训练有关的可减的都减了也没见省多少内存,但是模型启动的过程中,当cudnn的API被第一次调用时,启动有卡顿,同时看着内存一路不停飙升,把相关网络层的代码注释掉试试,结果后面的网络层中调用到cudnn的API时内存又照样飙升,看来cudnn需要占用很多内存。
为了确认这点,查找了NVIDIA论坛,发现有人也反应过类似问题,NVIDIA也提供了个测试代码用于确认cudnn占用了多少内存,这个代码挺有用的,既可以用于测量你的GPU的内存多大(对于服务器上的NVIDIA GPU,各种型号GPU的内存大小都是已知的,但是对于Jetson各种板子上的GPU,NVIDIA给出各种板子的参数时从来不告诉你上面的GPU的内存是多大,这点很奇怪,似乎怕竞争对手知道?有了下面的代码就可以测量出来了,Nano上的GPU的内存是3.9G多,也就是4G),很显然这个代码可作为个小工具使用,记下来以便以后使用:
#include #include "cuda.h"#include "cudnn.h"#define ONE_MBYTE (1024*1024)void printMemInfo(){ size_t free_byte ; size_t total_byte ; cudaError_t cuda_status = cudaMemGetInfo( &free_byte, &total_byte ) ; if ( cudaSuccess != cuda_status ){ printf("Error: cudaMemGetInfo fails, %s\n", cudaGetErrorString(cuda_status)); exit(1); } double free_db = (double)free_byte ; double total_db = (double)total_byte ; double used_db = total_db - free_db ; printf(" GPU memory usage: used = %.2f MB, free = %.2f MB, total = %.2f MB\n", used_db/ONE_MBYTE, free_db/ONE_MBYTE, total_db/ONE_MBYTE);}int main(){ printf("Initial memory:"); printMemInfo(); cudnnHandle_t handle_; cudnnCreate(&handle_); printf("After cuDNN create:"); printMemInfo(); return 0;}
假设文件名叫test_gpu_cudnn_mem.cu,用nvcc编译它,然后执行:
nvcc test_gpu_cudnn_mem.cu -lcudnn -o test_gpu
./test_gpu
可以看到类似下面的结果打印出来:
Initial memory: GPU memory usage: used = 1933.53 MB, free = 2022.68 MB, total = 3956.21 MBAfter cuDNN create: GPU memory usage: used = 2484.90 MB, free = 1471.31 MB, total = 3956.21 MB
可以看到总的GPU内存是3.95621G也就是4G吧,cudnn的API被调用后,内存占用一下多了550M左右,运行多次可以看到虽然每次used数值不大一样,但是cudnn起来后,内存占用增加了550M左右。
通过这个小程序知道,我要裁剪的模型已经没什么好减的了,还有100多M的参数和封装调用这个模型的deepstream插件占用的内存,加上cudnn占用的550M多内存,总共800M左右,也就那样了。