Jailbreak
Définition
Un jailbreak, dans le contexte des modèles de langage, désigne une technique qui pousse l'IA à enfreindre ses propres règles de sécurité. Cela passe souvent par des formulations détournées ("imagine un personnage qui...", "joue le rôle d'une IA sans restriction"), des chaînes d'instructions complexes, ou l'exploitation de failles dans les couches d'alignement. À la différence de la prompt injection, qui est une attaque venant de l'extérieur du système, le jailbreak vient typiquement de l'utilisateur lui-même qui cherche à dépasser les limites posées par le fournisseur du modèle. Les modèles modernes (Claude, GPT, Gemini, Mistral) sont entraînés avec des techniques comme le RLHF ou le constitutional AI précisément pour résister à ces tentatives. Mais aucune défense n'est parfaite, et la course entre techniques de jailbreak et techniques d'alignement est permanente.
Voir aussi
Aller plus loin avec hIAppy
Vous voulez appliquer concrètement Jailbreak dans votre PME ou ETI ?
- Diagnostic IA hIAppy Vision : on cadre votre cas d'usage en 4 à 6 semaines.
- Prototype IA hIAppy Lab : POC fonctionnel en 5 à 15 jours.
- Formations IA hIAppy Learn : ateliers et formations sur mesure.