AI Inference ו-Performance על GPU

המסלול של NVIDIA ל-AI Inference, מותאם גם למתחילים: מתחילים מאפס מוחלט (מה זה מודל, מה זה GPU) ועולים בהדרגה. תבין מה זה inference, תמדוד latency מול throughput נכון (warmup, ‎torch.cuda.synchronize()‎, אחוזונים), תאתר אם אתה compute-bound או memory-bound, ותאיץ עם batching, mixed precision (FP16/BF16 + Tensor Cores), quantization (INT8/FP8), kernel fusion, CUDA Graphs ו-TensorRT — עד פרויקט benchmark מסכם בסגנון Triton.

שיעור 1: מה זה בכלל AI ומודל? — נתחיל מאפס
שיעור 2: מה זה GPU, ולמה לא סתם CPU?
שיעור 3: מה זה Inference? — האינטואיציה, בלי קוד
שיעור 4: איפה הנתונים 'גרים'? — CPU, GPU והמסע ביניהם
שיעור 5: מצב 'הופעה' — שני המתגים לפני שמריצים
שיעור 6: Latency מול Throughput — שתי מטריקות, שתי מטרות
שיעור 7: למדוד נכון — warmup, synchronize ואחוזונים
שיעור 8: צוואר הבקבוק — Compute-bound מול Memory-bound
שיעור 9: Batching — איך מגדילים throughput
שיעור 10: Dynamic Batching ו-Serving — לצבור בקשות בזמן אמת
שיעור 11: Precision — FP32 → FP16/BF16 ו-Tensor Cores
שיעור 12: Quantization — INT8/FP8
שיעור 13: Graph ו-Kernel Optimization — fusion, CUDA Graphs ו-TensorRT
שיעור 14: פרויקט Benchmark מסכם — להרכיב הכל