שיעור 14: פרויקט Benchmark מסכם — להרכיב הכל

הגיע הזמן לחבר הכל. בשיעור הזה נבנה benchmark אמיתי בסגנון NVIDIA: סורקים גדלי batch ו-precision, מודדים נכון (warmup + synchronize), ומדווחים throughput ו-p99 לכל הגדרה — ואז בוחרים את ההגדרה שעומדת בתקציב ה-latency ומשרתים אותה ב-Triton. זה בדיוק התהליך שמהנדס performance מבצע לפני שהוא טוען 'המוד

benchmark זה כמו לבדוק מכונית בכל הילוך לפני שקובעים 'היא מהירה': מודדים כל הגדרה באותם תנאים, רושמים את המספרים, ובוחרים את ההילוך שמתאים למסלול שלך.

Benchmark sweep: מדידה שיטתית של ביצועים על פני כמה הגדרות (batch, precision) באותם תנאים, לבחירת הטובה ביותר.
Latency budget: ה-latency המקסימלי שמותר לבקשה (למשל p99 < 50ms). בוחרים את ה-batch הגדול ביותר שעדיין עומד בו.
Triton Inference Server: שרת inference של NVIDIA שמריץ מודלים מכמה frameworks עם dynamic batching, concurrency ומדדים מובנים.