Skip to content

Мониторинг аппаратной части (вентиляторы/CPU/БП/температура)

Описание и назначение функции

Коммутатор CIT L3200 оснащен встроенной системой мониторинга аппаратных компонентов, которая отслеживает критические параметры работы устройства: температуру чипов и датчиков, напряжение питания, скорость вентиляторов, состояние блоков питания, загрузку процессора и оперативной памяти. Система автоматически генерирует SNMP-уведомления при превышении пороговых значений.

Основные сценарии использования:

  • Превентивная диагностика состояния оборудования в дата-центрах и критичных сегментах сети
  • Выявление деградации аппаратных компонентов до наступления отказа
  • Контроль условий эксплуатации при повышенных нагрузках или неоптимальной вентиляции помещений
  • Сбор телеметрии для планирования замены оборудования по показателям MTBF вентиляторов
  • Анализ корреляции между загрузкой процессора и температурой для оптимизации охлаждения

Функция работает постоянно в фоновом режиме и не требует активации после загрузки устройства. Все датчики опрашиваются контроллером BRMC с интервалом несколько секунд.


Необходимые условия и предварительные требования

Для работы системы мониторинга аппаратной части требуется:

  • Версия ПО: v1.0.2 и выше (серия CIT L3200)
  • Привилегированный доступ к устройству (privileged EXEC mode) для выполнения команд просмотра
  • Исправные аппаратные датчики температуры, напряжения и тахометры вентиляторов

Примечание: Команды мониторинга доступны только для чтения и не изменяют конфигурацию устройства. Некоторые параметры отображаются только при наличии соответствующего аппаратного обеспечения (например, блоков питания в режиме AC или DC).


Назначение команд конфигурации

Команда Режим Назначение
show temperature Privileged EXEC Отображает текущую температуру, пороговые значения и статус температурных датчиков
show voltage Privileged EXEC Показывает текущие значения напряжений, допустимые диапазоны и статус линий питания
show fan Privileged EXEC Выводит информацию о контроллерах вентиляторов, режимах работы, скорости и пороговых значениях
show power Privileged EXEC Отображает состояние блоков питания, режим работы (AC/DC) и наличие модулей
show brmc status Privileged EXEC Предоставляет детальную телеметрию BRMC: напряжения, температуры, обороты вентиляторов, ошибки и MTBF
show cpu Privileged EXEC Показывает текущую и максимальную загрузку процессора с пороговыми значениями
show cpu statistic Privileged EXEC Выводит детальную статистику по загрузке CPU с разбивкой по процессам и временным интервалам
show memory pool Privileged EXEC Отображает использование оперативной памяти и флеш-памяти по пулам и процессам

Команды предназначены исключительно для диагностики и не требуют перехода в режим конфигурирования. Все данные представлены в режиме реального времени с сохранением максимальных значений для анализа пиковых нагрузок.[^3][^2]


Пример конфигурирования

Пошаговые инструкции

Шаг 1: Проверка температурного режима

Switch#show temperature

Команда выводит индекс датчика, текущую температуру, нижний и верхний пороги, статус и состояние генерации SNMP-уведомлений. Обратите внимание на поле Status — значение "normal" указывает на работу в допустимом диапазоне.

Шаг 2: Мониторинг напряжений питания

Switch#show voltage

Отображает напряжения по линиям 1.0V, 1.2V, 1.8V, 2.5V, 3.3V и 12V. Статус "underflow" указывает на падение напряжения ниже нижнего порога, что требует немедленной проверки блока питания или нагрузки.

Шаг 3: Контроль работы системы охлаждения

Switch#show fan

Команда показывает режим управления вентиляторами (STC — standard-temperature-control), скорость в RPM и уровень мощности. Отсутствие вентилятора обозначается "NO" в столбце Present.

Шаг 4: Проверка состояния блоков питания

Switch#show power

Выводит информацию о режиме работы блока питания (AC/DC/N/A) и физическом наличии модуля в шасси. Значение "N/A" означает отсутствие питания или неисправность модуля.

Шаг 5: Детальная телеметрия через BRMC

Switch#show brmc status

Предоставляет полную картину состояния платы: напряжения ASIC/CPU/памяти, температуры PHY/ASIC/CPU, обороты всех вентиляторов с моделями и серийными номерами, счетчики ошибок и наработку на отказ (MTBF).

Шаг 6: Анализ загрузки процессора

Switch#show cpu
Switch#show cpu statistic

Первая команда выводит текущую и пиковую загрузку CPU. Вторая показывает усредненные значения за 5 секунд, 1 минуту и 5 минут, а также детализацию по процессам с указанием времени максимальной загрузки.

Шаг 7: Контроль использования памяти

Switch#show memory pool

Отображает общий объем, использование и процент занятости для RAM и Flash. Разбивка по процессам позволяет выявить утечки памяти или аномальное потребление ресурсов отдельными службами.


Полный вывод выполненных конфигураций

Команды для последовательного мониторинга всех аппаратных компонентов:

show temperature
show voltage  
show fan
show power
show brmc status
show cpu
show cpu statistic
show memory pool
entSensorValue (1.3.6.1.4.1.9.9.91.1.1.1.1.4) — значения датчиков
entPhysicalDescr (1.3.6.1.2.1.47.1.1.1.1.2) — описание компонентов

Изучение состояния устройства

Просмотр температурных параметров

Проверка текущей температуры:

Switch#show temperature
Temperature information:
 Temperature monitor: enable
   Index           CurrValue L-Threshold H-Threshold RE-L-Threshold RE-H-Threshold RE-State  Status    Trap    Descr
*  Temper-1/0/1    47        -10         68          -30            90             disable   normal    enable  Sensor Temperature

Обратите внимание на параметры:

  • CurrValue: 47 — текущая температура датчика в градусах Цельсия
  • H-Threshold: 68 — порог предупреждения о высокой температуре[^3]
  • RE-H-Threshold: 90 — критический порог с автоматическим отключением[^3]
  • Status: normal — работа в допустимом диапазоне <---- ключевой индикатор

Просмотр напряжений

Проверка линий питания:

Switch#show voltage
Voltage information:
 Voltage monitor: enable
   Index          CurrValue       L-Threshold     H-Threshold     Status          Trap    Descr
*  Voltage-1/0/1    0.000           0.950           1.050         underflow       enable  1.0V
*  Voltage-1/0/6    0.000          10.800          12.600         underflow       enable  12V

Значение 0.000 с Status: underflow указывает на отсутствие линии питания или неисправность датчика.

Просмотр состояния вентиляторов

Детальная информация через BRMC:

Switch#show brmc status
Value of FAN1      : 8066.000000 RPM
Model of FAN1      : FAN_MODULE_L3200 
Serial of FAN1     : 2548023 
Errors of FAN1     : EREAD=[^0][^0] EREG=[^0][^0]
                     EMTBF=[^0][^0] EPWM=[^0][^0]
                     EMISS=[^0][^0] 
MTBF of FAN1       : 93 of 50000 hours        <---- текущая наработка

Все счетчики ошибок должны быть нулевыми. Ненулевые значения указывают на проблемы с считыванием данных, регистрацией или управлением PWM.

Просмотр загрузки CPU

Статистика по процессам:

Switch#show cpu statistic
 CPU utilization last-5sec: 7.00%, last-1min: 6.56%, last-5min :6.20%
 Max CPU usage: 95.55%
 Max CPU usage stat time: 1970-01-01 08:00:30

 ServiceName         UseRate         MaxUseRate      MaxUseTime          
 (uspdriver)         2.41%           2.61%           1970-01-01 21:36:25  <---- основной потребитель
 (uspuinet)          1.30%           1.40%           1970-01-01 21:36:05 

Процессы uspdriver и uspuinet обрабатывают трафик и обычно занимают верхние позиции. Аномальный рост загрузки других процессов требует анализа.


Рекомендации выполнения команд и настроек

  1. Регулярность мониторинга
    • Проверяйте температуру и вентиляторы ежедневно в средах с высокой плотностью оборудования
    • Анализируйте тренды изменения температуры при увеличении нагрузки на сеть
  2. Интерпретация пороговых значений
    • Температура выше 60°C требует проверки системы охлаждения помещения
    • Загрузка CPU выше 80% в течение более 5 минут указывает на необходимость оптимизации конфигурации или перераспределения трафика
    • Использование RAM свыше 85% может привести к деградации производпроизводительности коммутации
  3. Диагностика отклонений
    • При статусе "underflow" для напряжений проверьте качество электропитания и заземление
    • Счетчики ошибок вентиляторов (EREAD, EREG) сигнализируют о необходимости замены модуля до истечения MTBF
    • Резкие скачки загрузки CPU требуют анализа командой show cpu statistic с детализацией по процессам
  4. Профилактические меры
    • Документируйте значения MTBF вентиляторов для планирования замены до достижения 80% от 50000 часов
    • При достижении температуры 65°C проверьте чистоту воздушных фильтров и радиаторов
    • Мониторьте наработку блоков питания через внешние системы учета времени работы оборудования

История возникновения команды

Команды в данной главе применимы для:

  • Аппаратных платформ CIT серии L3200 с установленной версией ПО v1.0.2 и выше
  • Являются актуальными с версии ПО v1.0.2 с поддержкой контроллера BRMC версии 1.2.3

Функционал мониторинга аппаратной части реализован на базе стандартов ENTITY-MIB (RFC 4133) и ENTITY-SENSOR-MIB (RFC 3433) для обеспечения совместимости с системами управления сетью.


Ссылка на внешнюю документацию

  • RFC 4133 (Entity MIB v3) — стандарт описания физических компонентов сетевых устройств
  • RFC 3433 (Entity Sensor MIB) — стандарт мониторинга датчиков температуры, напряжения и других параметров

При возникновении вопросов обратитесь к технической поддержке.