Сводка команд NVIDIA-SMI

TensorFlow
Сводка команд NVIDIA-SMI

Введение в NVIDIA-SMI

  • nvidia-smi, называемый NVSMI, обеспечивает функцию мониторинга использования графического процессора и изменения состояния графического процессора.Это кроссплатформенный инструмент, который поддерживает все стандартные дистрибутивы Linux с поддержкой драйверов NVIDIA и 64-разрядные системы, начиная с Windows Server 2008 R2. Этот инструмент прилагается к драйверу карты Nvidia,Он будет там, пока драйвер установлен..

  • Расположение программы под Windows: C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe. Расположение программы в Linux: /usr/bin/nvidia-smi, так как расположение было добавлено в путь PATH, вы можете напрямую ввести nvidia-smi для запуска.

Подробное объяснение серии команд NVIDIA-SMI

nvidia-smi

Отображает текущий информационный статус всех графических процессоров

image.png

В отображаемой таблице:

Fan: Скорость вентилятора (0%--100%), N/A означает отсутствие вентилятора.

Temp: температура графического процессора (высокая температура графического процессора приведет к падению частоты графического процессора)

Perf: Состояние производительности, от P0 (максимальная производительность) до P12 (минимальная производительность)

Pwr: энергопотребление графического процессора

Persistence-M: состояние постоянного режима (постоянный режим потребляет больше энергии, но занимает меньше времени при запуске новых приложений графического процессора).

Bus-Id: шина графического процессора, домен: шина: устройство. функция

Disp.A: Display Active, указывающий, инициализирован ли дисплей графического процессора.

Memory-Usage: использование видеопамяти

Volatile GPU-Util: использование графического процессора

ECC: Включить ли технологию проверки и исправления ошибок, 0/ОТКЛЮЧЕНО, 1/ВКЛЮЧЕНО

Compute M.: режим вычисления, 0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

Дополнительные опции:

  • nvidia-smi –я ххх
    • Укажите графический процессор
  • nvidia-smi –l ххх
    • Информация о динамическом обновлении (обновление каждые 5 секунд по умолчанию), нажмите Ctrl+C, чтобы остановить, вы можете указать частоту обновления в секундах
  • nvidia-smi –f ххх
    • Вывод запрошенной информации в определенный файл вместо отображения ее на терминале

nvidia-smi -q

Запросить текущие данные для всех графических процессоров

image.png

Дополнительные опции:

  • nvidia-smi –q –u
    • Отображение свойств юнита вместо графического процессора
  • nvidia-smi –q –i ххх
    • Укажите конкретную информацию о графическом процессоре или устройстве
  • nvidia-smi –q –f ххх
    • Вывод запрошенной информации в определенный файл вместо отображения ее на терминале
  • nvidia-smi –q –x
    • Вывести информацию запроса в виде xml
  • nvidia-smi -q –d ххх
    • Укажите для отображения некоторой информации о карте графического процессора, параметр xxx может быть ПАМЯТЬ, ИСПОЛЬЗОВАНИЕ, ECC, ТЕМПЕРАТУРА, МОЩНОСТЬ, ЧАСЫ, ВЫЧИСЛЕНИЕ, PIDS, ПРОИЗВОДИТЕЛЬНОСТЬ, SUPPORTED_CLOCKS, PAGE_RETIREMENT, УЧЕТ
  • nvidia-smi –q –l ххх
    • Информация о динамическом обновлении, нажмите Ctrl+C, чтобы остановить, вы можете указать частоту обновления в секундах

nvidia-smi --query-gpu=gpu_name,gpu_bus_id,vbios_version--format=csv

Выборочные параметры запроса, вы можете указать отображаемые параметры свойства

image.png

Доступны следующие свойства: timestamp, driver_version, pci.bus, pcie.link.width.current и т. д. (См. nvidia-smi--help-query-gpu, чтобы узнать, какие свойства доступны)

Варианты модификации устройства

Параметры состояния для устройств с картами графического процессора можно установить вручную.

  • nvidia-smi –pm 0/1
    • Установить режим сохранения: 0/ОТКЛЮЧЕНО, 1/ВКЛЮЧЕНО
  • nvidia-smi –e 0/1
    • Переключить поддержку ECC: 0/ОТКЛЮЧЕНО, 1/ВКЛЮЧЕНО
  • nvidia-smi –p 0/1
    • Сброс счетчика ошибок ECC: 0/VOLATILE, 1/AGGREGATE
  • nvidia-smi –c
    • Установите режим приложения расчета: 0/DEFAULT, 1/EXCLUSIVE_PROCESS, 2/PROHIBITED
  • nvidia-smi –r
    • Сброс графического процессора
  • nvidia-smi –vm
    • Установить режим виртуализации графического процессора
  • nvidia-smi –ac ххх, ххх
    • Устанавливает рабочую частоту, на которой работает графический процессор. например nvidia-smi –ac2000,800
  • nvidia-smi –rac
    • сбросить тактовую частоту по умолчанию
  • nvidia-smi –acp 0/1
    • Переключить требования разрешений для -ac и -rac, 0/НЕОГРАНИЧЕННО, 1/ОГРАНИЧЕННО
  • nvidia-smi –пл.
    • Указывает максимальный предел управления питанием (Вт).
  • nvidia-smi –am 0/1
    • Включить или отключить режим счета, 0/ОТКЛЮЧЕНО, 1/ВКЛЮЧЕНО
  • nvidia-smi –caa
    • Очистить все записанные PID в буфере, 0/ОТКЛЮЧЕНО, 1/ВКЛЮЧЕНО

nvidia-smi dmon

Команда мониторинга устройства для отображения статистики устройства GPU в виде полос прокрутки.

image.png

Статистика графического процессора отображается в формате однострочной прокрутки, а отслеживаемые показатели можно настроить в зависимости от ширины окна терминала. Отслеживает до 4 GPU, если GPU не указан, по умолчанию отслеживается GPU0-GPU3 (индекс GPU начинается с 0).

Дополнительные опции:

  • nvidia-smi dmon –я ххх
    • Разделенный запятыми индекс графического процессора, идентификатор шины PCI или UUID
  • nvidia-smi dmon –d xxx
    • Укажите время обновления (по умолчанию 1 секунда)
  • nvidia-smi dmon –c xxx
    • Отобразить указанное количество статистики и выйти
  • nvidia-smi dmon –s xxx
    • Указывает, какие показатели мониторинга отображаются (по умолчанию — puc), где:
      • p: энергопотребление и температура (pwr: энергопотребление, temp: температура)
      • u: использование графического процессора (sm: потоковый процессор, mem: видеопамять, enc: ресурсы кодирования, dec: ресурсы декодирования)
      • c: тактовая частота процессора GPU и памяти GPU (mclk: частота видеопамяти, pclk: частота процессора)
      • v: аномальная мощность и тепло
      • m: память FB и память Bar1
      • e: количество ошибок ECC и ошибок воспроизведения PCIe.
      • t: пропускная способность PCIe для чтения и записи
  • nvidia-smi dmon –o D/T
    • Укажите отображаемый формат времени Д:ГГГГ ММ ДД,ЧЧ:ММ:СС
  • nvidia-smi dmon –f xxx
    • Вывод запрошенной информации в определенный файл вместо отображения ее на терминале

nvidia-smi pmon

Команда мониторинга процесса для отображения информации о состоянии процесса графического процессора в виде полос прокрутки.

image.png

Статистика процессов графического процессора отображается в формате однострочной прокрутки, и этот инструмент отображает статистику для всех процессов на графическом процессоре. Метрики для мониторинга можно настроить в зависимости от ширины окна терминала. Отслеживает до 4 GPU, если GPU не указан, по умолчанию отслеживается GPU0-GPU3 (индекс GPU начинается с 0).

Дополнительные опции:

  • nvidia-smi pmon –я ххх
    • Разделенный запятыми индекс графического процессора, идентификатор шины PCI или UUID
  • nvidia-smi pmon –d xxx
    • Укажите время обновления (по умолчанию 1 секунда, максимум 10 секунд)
  • nvidia-smi pmon –c xxx
    • Отобразить указанное количество статистики и выйти
  • nvidia-smi pmon –s xxx
    • Указывает, какие показатели мониторинга отображаются (по умолчанию — u), где
      • u: использование графического процессора
      • m: Использование памяти FB
  • nvidia-smi pmon –o D/T
    • Укажите отображаемый формат времени Д:ГГГГ ММ ДД,ЧЧ:ММ:СС
  • nvidia-smi pmon –f xxx
    • Вывод запрошенной информации в определенный файл вместо отображения ее на терминале