שיעור 0: למה בכלל להבין את המערכת והרשת?
האתר שלך עובד מצוין על המחשב הנייד שלך — ואז משתמשים מדווחים שהוא לא נגיש בכלל. אין הודעת שגיאה בקוד, אין stack trace להסתכל עליו. זו לא תקלה בפונקציה שכתבת — זו תקלה בשכבה שמתחת לקוד: איך המערכת מריצה את השירות שלך, ואיך מכונות בכלל מוצאות ומדברות אחת עם השנייה ברשת. כמעט כל שרת ותשתית ענן בעולם רצ
כשמשהו נשבר בשרת, קוד לבד לא מסביר לך למה — צריך להסתכל מתחת למכסה המנוע, על המערכת ועל הרשת.
- תקלת פרודקשן (Production incident)
- אירוע שבו שירות חי מפסיק לעבוד או מאט עבור משתמשים אמיתיים — לא רק תקלה בסביבת פיתוח.
- שורש הבעיה (Root cause)
- הסיבה האמיתית שהובילה לתקלה, להבדיל מהסימפטום החיצוני שרואים ראשון.
- פנימיות מערכת ההפעלה (OS internals)
- האופן שבו הקרנל מנהל תהליכים, זיכרון וקבצים מתחת לכל תוכנית שרצה על המחשב.
- נגישות ברשת (Network reachability)
- השאלה האם מכונה אחת יכולה בכלל להגיע למכונה אחרת דרך הרשת, עוד לפני שמדברים על מה שרץ עליה.
- דיבוג ברמת המערכת (Systems-level debugging)
- איתור תקלות באמצעות כלים שחושפים מה קורה בפועל בקרנל וברשת, ולא רק בקוד האפליקציה.