שיעור 9: Batching — איך מגדילים throughput
להריץ תמונה אחת בכל פעם זה לבזבז GPU: אלפי הליבות שלו עומדות כמעט ריקות. batching הוא הכלי החזק ביותר ל-throughput — מערימים הרבה קלטים ל-batch אחד, וקריאת kernel אחת ממלאת את ה-GPU. בשיעור הזה נבין איך זה מכפיל throughput, ומה המחיר ב-latency ובזיכרון.
להריץ פריט אחד בכל פעם זה כמו לשלוח אוטובוס ריק עם נוסע אחד שוב ושוב. batching זה למלא את האוטובוס לפני שיוצאים — אותה נסיעה, פי הרבה נוסעים.
- Batch
- אוסף קלטים שמורצים יחד בקריאת kernel אחת. ממד ה-batch הוא הממד הראשון ב-tensor.
- ניצול GPU
- כמה מהליבות של ה-GPU עסוקות בפועל. batch קטן = ניצול נמוך; batch גדול ממלא אותן.