这个是一个mnist手写体识别的模型,batch_size=500,使用GPU训练,但是GPU使用率会出现突然的波谷,我这个是并行了好几个任务的图(图一),如果单个任务的话,波动更大,如图2。我想请教大神的是,为什么出现这样的波动?是因为GPU的回收机制还是因为各种延迟?
您好,我的意思是使用GPU训练模型的时候,用nvidia-smi -l 监控到的性能指标GPU-Util的值波动很大,想知道一下导致这个原因是什么