Q

    Quantization

    Définition

    La quantization consiste à représenter les poids et activations d'un modèle d'IA avec moins de bits que d'origine. Un modèle entraîné en précision 32 bits (FP32) peut souvent être converti en 8 bits (INT8) ou même 4 bits (INT4) avec une perte de qualité minime, tout en divisant sa taille mémoire par 4 ou 8 et en accélérant fortement l'inférence. Cette technique est centrale pour deux usages : l'IA locale (faire tourner un LLM sur un ordinateur portable ou un serveur d'entreprise) et l'IA edge (déployer un modèle sur un appareil mobile ou embarqué). Sans quantization, beaucoup de modèles modernes seraient simplement trop gros pour ces environnements. Différentes approches existent : la quantization post-entraînement (la plus simple, sans réentraînement) et la quantization-aware training (plus précise, qui anticipe la perte de précision pendant l'entraînement). Pour une PME qui veut déployer une IA en interne sans dépendre du cloud, c'est une brique technique incontournable.

    Voir aussi

    Aller plus loin avec hIAppy

    Vous voulez appliquer concrètement Quantization dans votre PME ou ETI ?

    Tous les termes

    Nous utilisons des cookies pour la mesure d'audience et, avec votre accord, pour des fonctionnalités publicitaires. Vous pouvez accepter ou refuser.

    hIAppyen ligne

    Une question sur l'IA pour votre entreprise ?

    Répondre

    hIAppy

    IA • En ligne

    Bonjour ! 👋

    Je suis l'assistant IA de hIAppy. Comment puis-je vous aider à explorer l'IA pour votre entreprise ?