שיעור 12: Quantization — INT8/FP8

FP16 חצה את הזיכרון. quantization הולך רחוק יותר: לייצג משקלים ואקטיבציות כמספרים שלמים 8-ביט (INT8) — בייט אחד במקום ארבעה, פי 4 קטן ומהיר על יחידות INT. המחיר: שגיאת עיגול קטנה. הסוד לשמירה על הדיוק הוא calibration. בשיעור הזה נבין את הנוסחה, את ה-trade-off, ולמה FP8 הוא הדור הבא.

quantization זה כמו לעגל מחירים לשקלים שלמים במקום אגורות. חוסכים מקום ומחשבים מהר, ולרוב התוצאה הסופית כמעט זהה — בתנאי שבוחרים נכון לאיזה 'עיגול' (scale).

INT8 quantization: ייצוג ערכים כמספרים שלמים 8-ביט (בייט אחד) במקום FP32 (4 בייט). פי 4 קטן ומהיר, בעלות דיוק.
Scale: מקדם שממפה את טווח ה-FP32 לטווח השלמים. q = ‎round(x / scale)‎; דה-קוונטיזציה: x ≈ q * scale.
Calibration: הרצת נתונים מייצגים כדי למדוד את טווח הערכים האמיתי ולבחור scale שממזער שגיאת עיגול.