@aaron כתב בניהול כ 20 שרתים עם צוות של 6 מתכנתים - תובנות וכלים שיכול לעוזר:
@google3 אשאל אותך כך: יצא לך לחוות תקלות וdowntime שנבע מטעויות אנוש שיכלו להימנע אילו מישהו מקצועי יותר היה שולט בכל התשתיות שלך?
שוב, יש לי כמה פרויקטים ותלוי אל מה אתה שואל (יש מה מה שעדיין בשלב פתוח אבל יש שם לקחות לטסטים).
אבל התשובה כמעט תמיד שלא ודברים שצריכים לעבוד, עובדים.
לדגמא יש לי שירות של מספרים בכל העולם כבר 5 שנים והיה רק פעם אחת נפילה וזה היה בגלל חוסר ב-SSD.
אותה נפילה הייתה לי גם בשיחות יוצאות פעמיים בגלל חוסר ב-SSD.
כבר טיפלתי בשני המקרים, שימחוק הלוג שהוא יותר מחודש, אבל עם כל זה זה מה שחוסר לי מאוד אם יש לי מקום שאני יכול לראות כל השרתים והמצב איתם SPU SSD זה יכול לעזור לי המון
אגב, לגבי שיחות נכנסות, יש לנו גיבוי כיום עם שרת נוסף, כך שבכל מקרה של תקלה או ריבוט, המעבר הוא אוטומטי לשרת הגיבוי. השרת גיבוי מסנכרן את המידע כל 6 שעות לאחר שרת הראשון - ועובדים עכשיו לעשות את זה גם לשיחות יוצאות