Soarkey / notice-me-gpu

自动化监控GPU空闲状态并邮件提醒

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

notice-me-gpu

自动化定时连接远程ssh监控GPU空闲情况, 若符合自定义阈值规则发送邮件通知使用者

参考 https://github.com/CVHuber/GPU_Notice

             _   _                                                       
 _ __   ___ | |_(_) ___ ___       _ __ ___   ___        __ _ _ __  _   _ 
| '_ \ / _ \| __| |/ __/ _ \_____| '_ ` _ \ / _ \_____ / _` | '_ \| | | |
| | | | (_) | |_| | (_|  __/_____| | | | | |  __/_____| (_| | |_) | |_| |
|_| |_|\___/ \__|_|\___\___|     |_| |_| |_|\___|      \__, | .__/ \__,_|
                                                       |___/|_|          
v1.0.0

1.使用说明

安装依赖, 修改config.yaml配置中的信息, 运行程序即可

pip install -r requirements.txt
nohup python -u main.py >gpu.log 2>&1 &

2.已有功能

  • 远程连接机器, 适合使用数据中心/容器平台/服务器不在身边的情况
  • 每一轮监控都会动态加载配置文件, 方便随时切换监控机器和邮箱信息, 也可以动态调整程序休眠时间

3.下一步规划

  • 增加远程和本地服务器的切换
  • 将效率低的循环+休眠改为定时任务

About

自动化监控GPU空闲状态并邮件提醒


Languages

Language:Python 100.0%