Reakcija
SLA pēc vienošanās (incidenti / kritiskums)
Mēs pārņemam Windows un Linux serveru ikdienas ekspluatāciju: atjauninājumi, drošība, rezerves kopijas, monitorings un reakcija uz incidentiem — stabilai un prognozējamai darbībai.
Serveru problēmas gandrīz vienmēr izmaksā dārgāk nekā profilakse. Mēs ieviešam regulārus procesus: atjauninājumus, konfigurāciju kontroli, rezerves kopijas, monitoringu, žurnālus un skaidru reakciju uz incidentiem.
Fokuss — stabilitāte un prognozējamība: mazāk “rokdarbu”, vairāk automatizācijas, pārskatāmi pārskati un saprotami reglamanti. Atbalstām gan atsevišķus serverus, gan veselus kontūrus.
SLA pēc vienošanās (incidenti / kritiskums)
Reglamants + izmaiņu kontrole
Pārskati, žurnāli, darbu vēsture
Minimālās tiesības, MFA, atjauninājumi
Ja serveri ir kritiski biznesam, labāk ir regulāra uzturēšana un saprotams ekspluatācijas režīms, nevis “ugunsgrēku dzēšana”.
Ikdienas ekspluatācija + plānotie darbi + reakcija uz incidentiem.
Windows Update/WSUS, Linux repo, kernel/firmware — ar plānu un apkalpošanas logiem.
MFA, SSH/RDP politikas, tiesību audits, lieko servisu izslēgšana, pamata CIS pieeja.
Backup stratēģija, grafiki, glabāšana, šifrēšana, atjaunošanas testi.
CPU/RAM/diski, servisi, sertifikāti, rindas, vieta logiem, SLA paziņojumi.
Triāža, lokalizācija, atjaunošana, postmortem un profilakses pasākumi.
Serveru/rolu saraksts, piekļuves, shēmas, reglamanti, izmaiņu žurnāls.
Izmaiņas notiek pēc plāna, ar mazākiem riskiem un iespēju atgriezties atpakaļ.
Logi + metriskas + paziņojumi, lai problēmas pamanītu pirms lietotājiem.
Mēs padarām ekspluatāciju sistēmisku: procesi, automatizācija un redzamība “rokdarbu” vietā.
Starts: 3–10 dienas inventarizācijai un procesu iestatīšanai. Tālāk — regulāra ekspluatācija (ikdienā/iknedēļā).
Serveru saraksts, lomas, piekļuves, riski, pašreizējais stāvoklis.
Piekļuve, atjauninājumi, backup, logi, pamata drošības iestatījumi.
Metrikas, servisu pārbaudes, paziņojumi un prioritātes.
Atjauninājumi, plānotie darbi, backup kontrole, profilakse.
Reakcija, atjaunošana, postmortem un pasākumi, lai neatkārtotos.
Trīs tipiskas situācijas no serveru ekspluatācijas.
Atjauninājumi tika atlikti mēnešiem — augsts ievainojamību un pēkšņu kļūmju risks.
Ieviesām apkalpošanas logus, testgrupu, rollback plānu un atjauninājumu pārskatus.
Regulāri atjauninājumi pēc grafika un prognozējamas izmaiņas.
Backup “it kā ir”, bet atjaunošana netika testēta — datu zuduma risks.
Ieviesām 3-2-1 politiku, šifrēšanu, uzdevumu kontroli un regulārus restore testus.
Pārliecība par atjaunošanu un mazāks dīkstāves laiks.
Servisi krita “klusi” — par problēmām uzzināja tikai pēc sūdzībām.
Iestatījām servisu pārbaudes, disku kontroli, sertifikātu termiņus un paziņojumus pēc kritiskuma.
Ātrāka atklāšana un atjaunošana (mazāks MTTR).
Šīs kļūdas visbiežāk noved pie incidentiem, dīkstāves un neplānotām izmaksām.
Ielāpi tiek likti “kaut kad”, bez logiem un pārskatiem.
Uzdevumi izpildās, bet restore netiek pārbaudīts.
Viens kopīgs admin konts, nav MFA, tiesības netiek pārskatītas.
Skatās tikai CPU/RAM, bet ne servisus/sertifikātus/rindas.
Izmaiņas tiek veiktas “uzreiz”, bez fiksēšanas un rollback.
Logi aug bez rotācijas, diski piepildās, un servisi apstājas.
Atkarīgs no serveru skaita, servisu kritiskuma, drošības prasībām un atbalsta režīma.
Mazs kontūrs, plānoti atjauninājumi un backup kontrole.
Monitorings, incidenti, regulāri darbi un pārskati.
Kritiski servisi, paplašināts monitorings, SLA un dežūras.
Aprakstiet serveru skaitu un kritiskos servisus — piedāvāsim atbalsta formātu un budžetu.
Pēc tam ātri ieviesīsim stabilu ekspluatācijas režīmu un novērojamību.