@google3 כתב בניהול כ 20 שרתים עם צוות של 6 מתכנתים - תובנות וכלים שיכול לעוזר:
לדגמא יש לי שירות של מספרים בכל העולם כבר 5 שנים והיה רק פעם אחת נפילה וזה היה בגלל חוסר ב-SSD.
אני מדבר על טעויות אנוש במהלך פיתוח, לא ש5 שנים משהו רץ בפרודקשן בלי שינויים..
לניטור של שרתים אתה יכול להשתמש בnetdata או בgrafana עם node exporter, ביחד עם alerts. זאת האפשרות הטובה יותר לדעתי.