Évaluer une IA : Matrice de confusion, F1-Score et Overfitting

Vous avez entraîné votre Model et il affiche fièrement une exactitude de 99%. Victoire ? Pas si vite. Imaginez une IA chargée de détecter une maladie rare qui touche 1% de la population. Si l'IA est paresseuse et prédit "En bonne santé" pour absolument tout le monde, elle aura raison 99% du temps. Pourtant, elle est totalement inutile car elle a raté tous les malades. C'est le paradoxe de l'exactitude. Pour juger une IA, il faut des outils plus fins. Voici comment passer votre modèle au crible. 1. Le détecteur de mensonges : La Matrice de Confusion Pour comprendre où l'IA se trompe, on utilise une Confusion Matrix (Matrice de confusion). C'est un tableau qui croise les prédictions de l'IA avec la réalité (Ground Truth ). Il révèle quatre cas de figure : True Positive Rate (TPR): L'IA a bien détecté le cas positif. True Negative Rate (TNR): L'IA a bien détecté le cas négatif. False Positive Rate (FPR): L'IA a donné une fausse alerte (elle a crié au loup). False Negative Rate (FNR): L'IA a raté le problème. C'est souvent l'erreur la plus grave. 2. Précision ou Rappel ? Choisir son combat Selon votre objectif, vous allez privilégier l'une ou l'autre de ces Classification Metrics: Precision: "Quand l'IA dit que c'est vrai, a-t-elle raison ?" C'est crucial pour un filtre anti-spam (on ne veut pas supprimer un mail important par erreur). Recall: "Est-ce que l'IA a trouvé tout le monde ?" C'est crucial pour la médecine ou la sécurité (mieux vaut une fausse alerte que de rater un danger). Souvent, quand on augmente l'un, l'autre baisse. Pour avoir une note globale équilibrée, on utilise le F1-Score, qui est la moyenne des deux. 3. L'élève qui apprend par cœur : Overfitting vs Underfitting Une fois les notes attribuées, il faut diagnostiquer le comportement de l'élève. Overfitting (Surapprentissage) C'est le cauchemar du Data Scientist. L'IA a appris les données d'entraînement "par cœur", y compris le bruit et les anomalies. Symptôme : Elle a 100% de réussite à l'entraînement, mais échoue sur de nouvelles données. Solution : Utiliser la Regularization , le Dropout ou augmenter la Data Augmentation. Underfitting (Sous-apprentissage) L'IA est trop simpliste. Elle n'a pas réussi à capter la complexité du problème. Elle est mauvaise à l'entraînement et mauvaise en test. Solution : Il faut un modèle plus complexe ou entraîner plus longtemps (plus d'Epoch ). 4. La validation finale Pour être sûr que l'IA ne triche pas, on sépare toujours les données en trois lots : Training Dataset: Pour apprendre. Validation Dataset: Pour régler les paramètres en cours de route. Test Dataset: L'examen final, que l'IA ne doit jamais avoir vu avant. C'est uniquement le score sur ce jeu de test qui détermine la véritable valeur de votre intelligence artificielle.

hIAppy Vision

hIAppy Lab

hIAppy Stream

hIAppy Learn

hIAppy Chat

Cas clients

Comprendre l'IA

Dictionnaire IA

Blog

Livre blanc

Méthodes de Prompting

Comment savoir si mon IA est performante ?

hIAppy

Bonjour ! 👋