Sunucu Donanım İzleme: SMART, IPMI, iDRAC/iLO ve Prometheus Entegrasyonu
Sunucu Donanım İzleme: SMART, IPMI, iDRAC/iLO ve Prometheus Entegrasyonu
Son Güncelleme: Mart 2026
Giriş: Bu rehberde hosting, sunucu, VPS/VDS altyapıları için kritik olan donanım izleme süreçlerini, SMART, IPMI, iDRAC/iLO araçları ve Prometheus ile Grafana entegrasyonunu ele alacağız. Amaç, donanım hatalarını öngörmek, arıza süresini azaltmak ve güvenli (yedekli) işletim sağlamaktır.
İçindekiler
- Genel Bakış
- SMART (Disk Sağlığı) Nedir?
- IPMI, iDRAC ve iLO: Donanım Yönetimi
- Prometheus ve Grafana ile İzleme
- Uygulama Örnekleri ve Komutlar
- Alerting (Uyarı) ve Eşik Değerleri
- En İyi Uygulamalar
- Sıkça Sorulan Sorular
- Sonuç
Genel Bakış
Donanım izleme, yalnızca CPU ve bellek kullanımını takip etmekten ibaret değildir; aynı zamanda disk sağlığı, fan hızları, sıcaklık sensörleri, PSU durumu ve uzak yönetim arayüzlerinin (IPMI/iDRAC/iLO) durumunu kapsar. Özellikle üretim (production) sistemlerinde erken uyarı mekanizmaları kurmak, beklenmedik kesintileri önler ve operasyonel maliyetleri düşürür.
SMART (Disk Sağlığı) Nedir?
SMART (Self-Monitoring, Analysis and Reporting Technology), disklerin (HDD/SSD) kendi sağlık verilerini (atribütleri) izlemesini sağlayan bir teknolojidir. SMART verileri aracılığıyla bad sektör artışı, okuma hatası sayısı, spin-up zamanları ve sıcaklık gibi metrikler izlenebilir.
SMART'in Avantajları
- Erken Uyarı: Disk hatasını beklenenden önce tespit etme imkanı sağlar.
- Veri Koruma: Yedekleme veya failover planlarını önceden tetikleyebilirsiniz.
- Detaylı Atributler: Her disk için ayrıntılı ölçümler sunar.
Önemli SMART Atributleri
- Reallocated_Sector_Ct: Yeniden tahsis edilen sektör sayısı.
- Current_Pending_Sector: Bekleyen (potansiyel) hatalı sektörler.
- Power_On_Hours: Diskin çalışma süresi (saat).
- Temperature_Celsius: Disk sıcaklığı.
IPMI, iDRAC ve iLO: Donanım Yönetimi
IPMI (Intelligent Platform Management Interface), sunucuların dışarıdan izlenmesi ve yönetilmesi için standart bir protokoldür. Üreticilere özgü arayüzler ise iDRAC (Dell), iLO (HPE) gibi yönetim çözümleridir. Bu araçlar sayesinde sunucuyu uzaktan reboot etme, konsol erişimi sağlama, sensör verilerini okuma (sıcaklık, fan, voltaj) mümkün olur.
IPMI / iDRAC / iLO'nun Sağladığı Temel Veriler
- Sensor Readings: CPU sıcaklığı, anakart sıcaklığı, fan hızları, güç durumu.
- Remote Console: Uzaktan konsol erişimi (KVM over IP).
- Power Control: Uzak güç açma/kapatma/reboot.
| Özellik | IPMI | iDRAC (Dell) | iLO (HPE) |
|---|---|---|---|
| Standart/Üretici | Endüstri standardı | Dell'e özel | HPE'ye özel |
| Uzak Konsol | Var (bazı modellerde) | Gelişmiş KVM | Gelişmiş KVM |
| Sensör Okuma | Evet | Evet | Evet |
| Yönetim Yazılımı | ipmitool vb. | iDRAC GUI/API | iLO GUI/API |
Prometheus ve Grafana ile İzleme
Prometheus, zaman serisi veri tabanına (TSDB) sahip açık kaynaklı bir izleme çözümüdür. Grafana ile birlikte kullanıldığında görselleştirme ve dashboard oluşturma sağlar. Donanım metrikleri için genellikle node_exporter, ipmi_exporter ve smart_exporter gibi exporter'lar kullanılır.
Temel Bileşenler
- Prometheus: Metrikleri çekip depolayan TSDB.
- Grafana: Dashboard ve görselleştirme aracı.
- Node Exporter: Sistem seviyesindeki metrikleri sunar.
- IPMI Exporter: IPMI sensörlerini Prometheus formatına çevirir.
- SMART Exporter: Disk SMART verilerini Prometheus'a sunar.
Örnek Prometheus scrape job (prometheus.yml)
scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['server1:9100','server2:9100']
- job_name: 'ipmi'
static_configs:
- targets: ['ipmi-exporter:9170']
Uygulama Örnekleri ve Komutlar
Pratik örnekler, günlük işletimde hızlı müdahale ve otomasyon sağlar. Aşağıda sık kullanılan komutlar ve konfigürasyon örnekleri yer almaktadır.
SMART Kontrolü (smartctl)
- Disk Health Check:
smartctl -a /dev/sda - Kısa Test Başlatma:
smartctl -t short /dev/sda - Test Sonucunu Görüntüleme:
smartctl -l selftest /dev/sda
SMART servislerini yapılandırmak için /etc/smartd.conf dosyasını düzenleyin ve e-posta veya webhook tetikleyin.
IPMI ile Sensör Okuma (ipmitool)
- Sensör Listesi:
ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' sdr elist - Güç Durumu:
ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' power status - Uzaktan Reboot:
ipmitool -I lanplus -H 192.0.2.10 -U admin -P 'Parola' power cycle
IPMI Exporter Konfigürasyonu (Örnek)
modules:
default:
auth_type: 'lanplus'
username: 'admin'
password: 'Parola'
sensors:
- temp
- fan
Node Exporter ve Disk SMART Entegrasyonu
- Node Exporter Başlatma (systemd):
systemctl start node-exporter systemctl enable node-exporter - SMART Exporter Örneği: SMART verilerini çeken küçük bir betik veya hazır exporter kullanabilirsiniz.
Alerting (Uyarı) ve Eşik Değerleri
Uyarı stratejileri, false-positive (yanlış alarm) sayısını azaltacak şekilde planlanmalıdır. Hem kısa süreli spike'ler hem de kalıcı değişimler için farklı kurallar tanımlayın.
Örnek Uyarı Politikası
- Disk Sağlığı: Reallocated_Sector_Ct artışı %10 veya Current_Pending_Sector > 0 olduğunda uyarı.
- Sıcaklık: CPU veya sistem sıcaklığı 75°C üzeri için uyarı, 85°C kritik alarm.
- Fan Hızı: Beklenen RPM'in %50 altına düşerse uyarı.
- IPMI Sensor Fail: Sensör offline veya okunamıyor ise anlık alarm.
Prometheus Alertmanager Örneği (alert rule)
groups:
- name: hardware.rules
rules:
- alert: HighDiskReallocatedSectors
expr: smart_reallocated_sectors_total > 100
for: 10m
labels:
severity: warning
annotations:
summary: "Disk {{ $labels.device }} reallocated sectors high"
En İyi Uygulamalar
İzleme sisteminizi güvenli ve sürdürülebilir kılmak için takip edilmesi gereken pratik adımlar:
- Redundancy (Yedeklilik): Kritik sunucularda RAID, dual PSU ve network path yedeklemesi kullanın.
- Automated Backups: Disk sağlığı bozulmadan önce otomatik yedeklemeler planlayın.
- İzleme Segmentasyonu: Donanım metriklerini uygulama metriklerinden ayırın.
- Güncellemeler: IPMI/iDRAC/iLO firmware güncellemelerini düzenli olarak uygulayın.
- Güvenlik: IPMI konsol erişimini sadece yönetim ağından izin verin ve güçlü parolalar/sertifikalar kullanın.
Sıkça Sorulan Sorular
SMART uyarısı aldım, hemen diski değiştirmeli miyim?
Cevap: SMART uyarısı tek başına acil değişim gerektirmez, ancak Reallocated_Sector_Ct veya Current_Pending_Sector değerlerinde artış varsa, öncelikle backup ve replika kontrolleri yapın. Ardından planlı değişim (RMA) sürecini başlatın.
IPMI erişimi açık bırakmak güvenli mi?
Cevap: IPMI servisini genel internete açık bırakmayın. Yönetim VLAN'ı, VPN veya jump host (bastion) üzerinden erişim sağlayın ve erişimleri mutlaka anahtarlı/sertifikalı hale getirin.
Prometheus ile donanım verilerini ne sıklıkta çekmeliyim?
Cevap: Kritik sensörler için 15-30s, düşük öncelikli metrikler için 60-300s aralığı uygundur. Sık aralıklar network yükünü artırır; denge kurun.
iDRAC veya iLO ücretli midir?
Cevap: iDRAC/iLO temel fonksiyonları bazı üreticilerde ücretsizken, gelişmiş KVM veya ek özellikler lisanslı (ücretli) olabilir. Donanım modeline göre farklılık gösterir.
Disk SMART verilerini Prometheus'a nasıl sokarım?
Cevap: Hazır smart_exporter kullanabilir veya küçük bir betik ile smartctl çıktısını Prometheus textfile collector formatında yazdırabilirsiniz. Bu veriyi node_exporter'ın textfile collector'ı okuyabilir.
Sonuç
Sunucu donanım izlemesi, sadece sistem yöneticileri için değil işletmenin sürekliliği için kritik bir uygulamadır. SMART verileri disk hatalarını öngörürken, IPMI / iDRAC / iLO uzak yönetim ile fiziksel müdahaleyi kolaylaştırır. Prometheus ve Grafana ile bu metrikleri merkezi olarak toplamak, görselleştirmek ve uyarı mekanizmaları kurmak operasyonel olgunluğu arttırır.
Donanım izleme ihtiyacınız varsa Corelux'un donanım ve sunucu çözümlerini inceleyebilirsiniz: Kiralık Sunucu veya Sanal Sunucu hizmetlerimiz üzerinden ihtiyaçlarınıza uygun planlar bulabilirsiniz.
Yazar
Boran BAR