AI Inference ו-Performance על GPU
המסלול של NVIDIA ל-AI Inference, מותאם גם למתחילים: מתחילים מאפס מוחלט (מה זה מודל, מה זה GPU) ועולים בהדרגה. תבין מה זה inference, תמדוד latency מול throughput נכון (warmup, torch.cuda.synchronize(), אחוזונים), תאתר אם אתה compute-bound או memory-bound, ותאיץ עם batching, mixed precision (FP16/BF16 + Tensor Cores), quantization (INT8/FP8), kernel fusion, CUDA Graphs ו-TensorRT — עד פרויקט benchmark מסכם בסגנון Triton.