Nvidia nvmlInit() blocks simultaneous calls.

Question

Nvidia nvmlInit() blocks simultaneous calls.

chenja2000 opened this issue 3 years ago · comments

chenja2000 commented 3 years ago

This issue appears when there are multiple GPU applications running and they call nvmlInit() simultaneously from Nvidia library.

The symptom is that GPU applications is hanging at calling nvmlInit() for a while.

How to reproduce?
We can see the delay by running few hundreds "time nvidia-smi &" simultaneously on one gpu node.
time nvidia-smi & time nvidia-smi & time nvidia-smi & ...

Example test with 200 simultaneous runs
Result: The first one takes 1.646s, but the last takes over 12 seconds.

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|

+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
| No running processes found |
+-----------------------------------------------------------------------------+

real 0m1.646s
user 0m0.003s
sys 0m0.986s

//The last "time nvidia-smi" takes 12 seconds
real 0m12.057s
user 0m0.006s
sys 0m0.568s

This issue stops spectrum LSF from using Nvidia GPUs properly, becomes very urgent for our customers now.
Any advices and solutions from Nvidia are appreciated.

Wesley Maxey · Answer 1 · Wed Nov 03 2021 00:50:07 GMT+0800 (China Standard Time)

This is not an issue with libcudacxx. Please forward issues to https://forums.developer.nvidia.com/

chenja2000 · Answer 2 · Wed Nov 03 2021 02:34:32 GMT+0800 (China Standard Time)

@wmaxey Thanks! I created one topic there: https://forums.developer.nvidia.com/t/nvidia-nvmlinit-blocks-simultaneous-calls/193837
Not sure if Nvidia developer will help.