Quantization
Définition
La quantization consiste à représenter les poids et activations d'un modèle d'IA avec moins de bits que d'origine. Un modèle entraîné en précision 32 bits (FP32) peut souvent être converti en 8 bits (INT8) ou même 4 bits (INT4) avec une perte de qualité minime, tout en divisant sa taille mémoire par 4 ou 8 et en accélérant fortement l'inférence. Cette technique est centrale pour deux usages : l'IA locale (faire tourner un LLM sur un ordinateur portable ou un serveur d'entreprise) et l'IA edge (déployer un modèle sur un appareil mobile ou embarqué). Sans quantization, beaucoup de modèles modernes seraient simplement trop gros pour ces environnements. Différentes approches existent : la quantization post-entraînement (la plus simple, sans réentraînement) et la quantization-aware training (plus précise, qui anticipe la perte de précision pendant l'entraînement). Pour une PME qui veut déployer une IA en interne sans dépendre du cloud, c'est une brique technique incontournable.
Voir aussi
Aller plus loin avec hIAppy
Vous voulez appliquer concrètement Quantization dans votre PME ou ETI ?
- Diagnostic IA hIAppy Vision : on cadre votre cas d'usage en 4 à 6 semaines.
- Prototype IA hIAppy Lab : POC fonctionnel en 5 à 15 jours.
- Formations IA hIAppy Learn : ateliers et formations sur mesure.