Sunucu Donanım İzleme: SMART, IPMI, iDRAC/iLO ve Prometheus Entegrasyonu

Sunucu Donanım İzleme: SMART, IPMI, iDRAC/iLO ve Prometheus Entegrasyonu - Corelux
Paylaş:

Sunucu Donanım İzleme: SMART, IPMI, iDRAC/iLO ve Prometheus Entegrasyonu

Son Güncelleme: Mart 2026

Giriş: Bu rehberde hosting, sunucu, VPS/VDS altyapıları için kritik olan donanım izleme süreçlerini, SMART, IPMI, iDRAC/iLO araçları ve Prometheus ile Grafana entegrasyonunu ele alacağız. Amaç, donanım hatalarını öngörmek, arıza süresini azaltmak ve güvenli (yedekli) işletim sağlamaktır.

İçindekiler

Genel Bakış

Donanım izleme, yalnızca CPU ve bellek kullanımını takip etmekten ibaret değildir; aynı zamanda disk sağlığı, fan hızları, sıcaklık sensörleri, PSU durumu ve uzak yönetim arayüzlerinin (IPMI/iDRAC/iLO) durumunu kapsar. Özellikle üretim (production) sistemlerinde erken uyarı mekanizmaları kurmak, beklenmedik kesintileri önler ve operasyonel maliyetleri düşürür.

SMART (Disk Sağlığı) Nedir?

SMART (Self-Monitoring, Analysis and Reporting Technology), disklerin (HDD/SSD) kendi sağlık verilerini (atribütleri) izlemesini sağlayan bir teknolojidir. SMART verileri aracılığıyla bad sektör artışı, okuma hatası sayısı, spin-up zamanları ve sıcaklık gibi metrikler izlenebilir.

SMART'in Avantajları

  • Erken Uyarı: Disk hatasını beklenenden önce tespit etme imkanı sağlar.
  • Veri Koruma: Yedekleme veya failover planlarını önceden tetikleyebilirsiniz.
  • Detaylı Atributler: Her disk için ayrıntılı ölçümler sunar.

Önemli SMART Atributleri

  • Reallocated_Sector_Ct: Yeniden tahsis edilen sektör sayısı.
  • Current_Pending_Sector: Bekleyen (potansiyel) hatalı sektörler.
  • Power_On_Hours: Diskin çalışma süresi (saat).
  • Temperature_Celsius: Disk sıcaklığı.

IPMI, iDRAC ve iLO: Donanım Yönetimi

IPMI (Intelligent Platform Management Interface), sunucuların dışarıdan izlenmesi ve yönetilmesi için standart bir protokoldür. Üreticilere özgü arayüzler ise iDRAC (Dell), iLO (HPE) gibi yönetim çözümleridir. Bu araçlar sayesinde sunucuyu uzaktan reboot etme, konsol erişimi sağlama, sensör verilerini okuma (sıcaklık, fan, voltaj) mümkün olur.

IPMI / iDRAC / iLO'nun Sağladığı Temel Veriler

  • Sensor Readings: CPU sıcaklığı, anakart sıcaklığı, fan hızları, güç durumu.
  • Remote Console: Uzaktan konsol erişimi (KVM over IP).
  • Power Control: Uzak güç açma/kapatma/reboot.
Özellik IPMI iDRAC (Dell) iLO (HPE)
Standart/Üretici Endüstri standardı Dell'e özel HPE'ye özel
Uzak Konsol Var (bazı modellerde) Gelişmiş KVM Gelişmiş KVM
Sensör Okuma Evet Evet Evet
Yönetim Yazılımı ipmitool vb. iDRAC GUI/API iLO GUI/API

Prometheus ve Grafana ile İzleme

Prometheus, zaman serisi veri tabanına (TSDB) sahip açık kaynaklı bir izleme çözümüdür. Grafana ile birlikte kullanıldığında görselleştirme ve dashboard oluşturma sağlar. Donanım metrikleri için genellikle node_exporter, ipmi_exporter ve smart_exporter gibi exporter'lar kullanılır.

Temel Bileşenler

  • Prometheus: Metrikleri çekip depolayan TSDB.
  • Grafana: Dashboard ve görselleştirme aracı.
  • Node Exporter: Sistem seviyesindeki metrikleri sunar.
  • IPMI Exporter: IPMI sensörlerini Prometheus formatına çevirir.
  • SMART Exporter: Disk SMART verilerini Prometheus'a sunar.

Örnek Prometheus scrape job (prometheus.yml)

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['server1:9100','server2:9100']

  - job_name: 'ipmi'
    static_configs:
      - targets: ['ipmi-exporter:9170']

Uygulama Örnekleri ve Komutlar

Pratik örnekler, günlük işletimde hızlı müdahale ve otomasyon sağlar. Aşağıda sık kullanılan komutlar ve konfigürasyon örnekleri yer almaktadır.

SMART Kontrolü (smartctl)

  • Disk Health Check:
    smartctl -a /dev/sda
  • Kısa Test Başlatma:
    smartctl -t short /dev/sda
  • Test Sonucunu Görüntüleme:
    smartctl -l selftest /dev/sda

SMART servislerini yapılandırmak için /etc/smartd.conf dosyasını düzenleyin ve e-posta veya webhook tetikleyin.

IPMI ile Sensör Okuma (ipmitool)

  • Sensör Listesi:
    ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' sdr elist
  • Güç Durumu:
    ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' power status
  • Uzaktan Reboot:
    ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' power cycle

IPMI Exporter Konfigürasyonu (Örnek)

modules:
  default:
    auth_type: 'lanplus'
    username: 'admin'
    password: 'Parola'
    sensors:
      - temp
      - fan

Node Exporter ve Disk SMART Entegrasyonu

  • Node Exporter Başlatma (systemd):
    systemctl start node-exporter
    systemctl enable node-exporter
  • SMART Exporter Örneği: SMART verilerini çeken küçük bir betik veya hazır exporter kullanabilirsiniz.

Alerting (Uyarı) ve Eşik Değerleri

Uyarı stratejileri, false-positive (yanlış alarm) sayısını azaltacak şekilde planlanmalıdır. Hem kısa süreli spike'ler hem de kalıcı değişimler için farklı kurallar tanımlayın.

Örnek Uyarı Politikası

  • Disk Sağlığı: Reallocated_Sector_Ct artışı %10 veya Current_Pending_Sector > 0 olduğunda uyarı.
  • Sıcaklık: CPU veya sistem sıcaklığı 75°C üzeri için uyarı, 85°C kritik alarm.
  • Fan Hızı: Beklenen RPM'in %50 altına düşerse uyarı.
  • IPMI Sensor Fail: Sensör offline veya okunamıyor ise anlık alarm.

Prometheus Alertmanager Örneği (alert rule)

groups:
- name: hardware.rules
  rules:
  - alert: HighDiskReallocatedSectors
    expr: smart_reallocated_sectors_total > 100
    for: 10m
    labels:
      severity: warning
    annotations:
      summary: "Disk {{ $labels.device }} reallocated sectors high"

En İyi Uygulamalar

İzleme sisteminizi güvenli ve sürdürülebilir kılmak için takip edilmesi gereken pratik adımlar:

  • Redundancy (Yedeklilik): Kritik sunucularda RAID, dual PSU ve network path yedeklemesi kullanın.
  • Automated Backups: Disk sağlığı bozulmadan önce otomatik yedeklemeler planlayın.
  • İzleme Segmentasyonu: Donanım metriklerini uygulama metriklerinden ayırın.
  • Güncellemeler: IPMI/iDRAC/iLO firmware güncellemelerini düzenli olarak uygulayın.
  • Güvenlik: IPMI konsol erişimini sadece yönetim ağından izin verin ve güçlü parolalar/sertifikalar kullanın.

Sıkça Sorulan Sorular

SMART uyarısı aldım, hemen diski değiştirmeli miyim?

Cevap: SMART uyarısı tek başına acil değişim gerektirmez, ancak Reallocated_Sector_Ct veya Current_Pending_Sector değerlerinde artış varsa, öncelikle backup ve replika kontrolleri yapın. Ardından planlı değişim (RMA) sürecini başlatın.

IPMI erişimi açık bırakmak güvenli mi?

Cevap: IPMI servisini genel internete açık bırakmayın. Yönetim VLAN'ı, VPN veya jump host (bastion) üzerinden erişim sağlayın ve erişimleri mutlaka anahtarlı/sertifikalı hale getirin.

Prometheus ile donanım verilerini ne sıklıkta çekmeliyim?

Cevap: Kritik sensörler için 15-30s, düşük öncelikli metrikler için 60-300s aralığı uygundur. Sık aralıklar network yükünü artırır; denge kurun.

iDRAC veya iLO ücretli midir?

Cevap: iDRAC/iLO temel fonksiyonları bazı üreticilerde ücretsizken, gelişmiş KVM veya ek özellikler lisanslı (ücretli) olabilir. Donanım modeline göre farklılık gösterir.

Disk SMART verilerini Prometheus'a nasıl sokarım?

Cevap: Hazır smart_exporter kullanabilir veya küçük bir betik ile smartctl çıktısını Prometheus textfile collector formatında yazdırabilirsiniz. Bu veriyi node_exporter'ın textfile collector'ı okuyabilir.

Sonuç

Sunucu donanım izlemesi, sadece sistem yöneticileri için değil işletmenin sürekliliği için kritik bir uygulamadır. SMART verileri disk hatalarını öngörürken, IPMI / iDRAC / iLO uzak yönetim ile fiziksel müdahaleyi kolaylaştırır. Prometheus ve Grafana ile bu metrikleri merkezi olarak toplamak, görselleştirmek ve uyarı mekanizmaları kurmak operasyonel olgunluğu arttırır.

Donanım izleme ihtiyacınız varsa Corelux'un donanım ve sunucu çözümlerini inceleyebilirsiniz: Kiralık Sunucu veya Sanal Sunucu hizmetlerimiz üzerinden ihtiyaçlarınıza uygun planlar bulabilirsiniz.

Yazar

Boran BAR

Chat on WhatsApp