שיעור 6: Latency מול Throughput — שתי מטריקות, שתי מטרות
מהנדס אומר 'המודל מהיר'. השאלה הראשונה ב-NVIDIA: מהיר באיזה מובן? latency (כמה מהר תשובה אחת חוזרת) או throughput (כמה תשובות בשנייה)? אלו שתי מטרות שונות שלעיתים מתנגשות — וצריך לדעת לאיזו מהן אתה מכוון לפני שאתה נוגע בקוד.
latency זה כמה זמן לוקח שהמנה שלך תגיע מהמטבח. throughput זה כמה מנות המטבח מוציא בשעה. אפשר לבשל הרבה מנות יחד (throughput גבוה) אבל אז כל מנה בודדת מחכה קצת יותר (latency גבוה).
- Latency
- הזמן שלוקח לבקשה אחת לחזור — מהקלט עד הפלט. נמדד במילישניות. חשוב לחוויית משתמש בזמן אמת.
- Throughput
- כמה פריטים/בקשות מעובדים בשנייה. נמדד ב-items/sec. חשוב לעיבוד המוני ולעלות.