שיעור 14: פרויקט Benchmark מסכם — להרכיב הכל
הגיע הזמן לחבר הכל. בשיעור הזה נבנה benchmark אמיתי בסגנון NVIDIA: סורקים גדלי batch ו-precision, מודדים נכון (warmup + synchronize), ומדווחים throughput ו-p99 לכל הגדרה — ואז בוחרים את ההגדרה שעומדת בתקציב ה-latency ומשרתים אותה ב-Triton. זה בדיוק התהליך שמהנדס performance מבצע לפני שהוא טוען 'המוד
benchmark זה כמו לבדוק מכונית בכל הילוך לפני שקובעים 'היא מהירה': מודדים כל הגדרה באותם תנאים, רושמים את המספרים, ובוחרים את ההילוך שמתאים למסלול שלך.
- Benchmark sweep
- מדידה שיטתית של ביצועים על פני כמה הגדרות (batch, precision) באותם תנאים, לבחירת הטובה ביותר.
- Latency budget
- ה-latency המקסימלי שמותר לבקשה (למשל p99 < 50ms). בוחרים את ה-batch הגדול ביותר שעדיין עומד בו.
- Triton Inference Server
- שרת inference של NVIDIA שמריץ מודלים מכמה frameworks עם dynamic batching, concurrency ומדדים מובנים.