J

    Jailbreak

    Définition

    Un jailbreak, dans le contexte des modèles de langage, désigne une technique qui pousse l'IA à enfreindre ses propres règles de sécurité. Cela passe souvent par des formulations détournées ("imagine un personnage qui...", "joue le rôle d'une IA sans restriction"), des chaînes d'instructions complexes, ou l'exploitation de failles dans les couches d'alignement. À la différence de la prompt injection, qui est une attaque venant de l'extérieur du système, le jailbreak vient typiquement de l'utilisateur lui-même qui cherche à dépasser les limites posées par le fournisseur du modèle. Les modèles modernes (Claude, GPT, Gemini, Mistral) sont entraînés avec des techniques comme le RLHF ou le constitutional AI précisément pour résister à ces tentatives. Mais aucune défense n'est parfaite, et la course entre techniques de jailbreak et techniques d'alignement est permanente.

    Voir aussi

    Aller plus loin avec hIAppy

    Vous voulez appliquer concrètement Jailbreak dans votre PME ou ETI ?

    Tous les termes

    Nous utilisons des cookies pour la mesure d'audience et, avec votre accord, pour des fonctionnalités publicitaires. Vous pouvez accepter ou refuser.

    hIAppyen ligne

    Répondre

    hIAppy

    IA • En ligne

    Bonjour ! 👋

    Je suis l'assistant IA de hIAppy. Comment puis-je vous aider à explorer l'IA pour votre entreprise ?