שיעור 12: Quantization — INT8/FP8
FP16 חצה את הזיכרון. quantization הולך רחוק יותר: לייצג משקלים ואקטיבציות כמספרים שלמים 8-ביט (INT8) — בייט אחד במקום ארבעה, פי 4 קטן ומהיר על יחידות INT. המחיר: שגיאת עיגול קטנה. הסוד לשמירה על הדיוק הוא calibration. בשיעור הזה נבין את הנוסחה, את ה-trade-off, ולמה FP8 הוא הדור הבא.
quantization זה כמו לעגל מחירים לשקלים שלמים במקום אגורות. חוסכים מקום ומחשבים מהר, ולרוב התוצאה הסופית כמעט זהה — בתנאי שבוחרים נכון לאיזה 'עיגול' (scale).
- INT8 quantization
- ייצוג ערכים כמספרים שלמים 8-ביט (בייט אחד) במקום FP32 (4 בייט). פי 4 קטן ומהיר, בעלות דיוק.
- Scale
- מקדם שממפה את טווח ה-FP32 לטווח השלמים. q = round(x / scale); דה-קוונטיזציה: x ≈ q * scale.
- Calibration
- הרצת נתונים מייצגים כדי למדוד את טווח הערכים האמיתי ולבחור scale שממזער שגיאת עיגול.