Vous voulez qu'un LLM réponde avec le vocabulaire de votre métier, en s'appuyant sur vos documents internes, dans le ton de votre marque. Trois chemins s'offrent à vous : le Prompt Engineering, le RAG et le Fine-tuning. Ils ne sont pas interchangeables.
Prompt Engineering : rapide et sans infrastructure
Le Prompt Engineering consiste à formuler des instructions précises dans le Prompt pour guider le comportement du LLM. Pas de modification du modèle, pas d'infrastructure supplémentaire. Vous travaillez uniquement avec ce que le modèle offre déjà.
Concrètement, un bon System Prompt définit le rôle du modèle, le format de réponse attendu, les contraintes à respecter, et fournit des exemples (Few-shot prompting). Des techniques comme le Chain of Thought ou le Role Prompting permettent d'obtenir des réponses plus structurées et plus fiables.
Les forces : zéro coût d'infrastructure, déploiement immédiat, itérations rapides. Vous testez, vous ajustez, vous mesurez — en quelques minutes.
Les limites : la Context Window a une taille finie. Impossible d'y injecter toute votre base documentaire. Le modèle reste généraliste : il ne connaît pas votre jargon métier sauf si vous le lui expliquez à chaque requête. Et la qualité dépend entièrement de la formulation — un prompt mal conçu produit des résultats médiocres.
Le Prompt Engineering est le point de départ logique de tout projet IA. Avant d'investir dans du RAG ou du Fine-tuning, vérifiez d'abord jusqu'où un bon prompt vous emmène.
RAG : la mémoire externe
Le RAG (Retrieval-Augmented Generation) connecte le LLM à une base de connaissances externe. Au lieu de tout mettre dans le prompt, le système recherche automatiquement les passages pertinents dans vos documents et les injecte comme contexte avant la génération.
Les forces : les données restent à jour sans toucher au modèle. Chaque réponse est traçable — vous pouvez vérifier quelles sources ont été utilisées. Le modèle ne fabule plus sur vos données internes (ou beaucoup moins, avec un bon Grounding).
Les limites : le RAG nécessite une infrastructure dédiée — modèle d'Embedding, Base vectorielle, pipeline de Chunking, API d'orchestration. La qualité dépend de chaque maillon de la chaîne. Un mauvais chunking ou un embedding inadapté sabote l'ensemble. Et le RAG ne change pas le comportement du modèle : il lui donne de meilleures informations, pas un meilleur style.
Le RAG est idéal pour les bases de connaissances, la documentation interne, les FAQ dynamiques, les assistants métier qui doivent citer leurs sources.
Fine-tuning : reprogrammer le modèle
Le Fine-tuning modifie les poids du modèle en le réentraînant sur un Dataset spécifique. Contrairement au Prompt Engineering (qui guide) et au RAG (qui informe), le Fine-tuning transforme le modèle lui-même.
Après un Fine-tuning, le LLM intègre nativement le vocabulaire, le ton, la logique métier. Pas besoin de System Prompt complexe ni de pipeline externe : le comportement est ancré dans les paramètres du modèle.
Les techniques varient en coût. Le Full Fine-tuning réentraîne tous les paramètres — coûteux en GPU et en données, réservé aux gros budgets. Le LoRA (Low-Rank Adaptation) ne modifie qu'une fraction des paramètres, réduisant drastiquement le coût computationnel tout en préservant l'essentiel des performances. Le QLoRA combine LoRA avec la quantification pour fine-tuner des modèles de 70B de paramètres sur un seul GPU grand public.
Les forces : le modèle « pense » dans votre domaine. Réponses plus naturelles, moins de prompt engineering nécessaire, latence réduite (pas de recherche vectorielle). Indispensable pour les cas où le style, le format ou le raisonnement spécifique comptent.
Les limites : il faut un Dataset de qualité — des centaines voire des milliers d'exemples entrée/sortie. Le modèle peut « oublier » des compétences générales (Catastrophic Forgetting). Les données d'entraînement se figent dans le temps — contrairement au RAG, le modèle ne se met pas à jour en temps réel. Et le coût initial (préparation des données, compute, évaluation) est significatif.
La matrice de décision
Trois questions suffisent pour choisir.
Le modèle a-t-il besoin de données actualisées ? Si oui → RAG. Les données changent souvent, et le RAG les interroge en temps réel sans réentraînement.
Le modèle doit-il adopter un comportement spécifique ? Si oui → Fine-tuning. Un ton particulier, un format de réponse précis, un raisonnement métier : le fine-tuning ancre ces comportements dans le modèle.
Le besoin est-il simple et ponctuel ? Si oui → Prompt Engineering. Avant toute infrastructure, testez si un bon prompt suffit.
En pratique : la combinaison gagnante
Les meilleurs systèmes ne choisissent pas entre les trois — ils les empilent.
Un modèle fine-tuné sur le domaine métier (vocabulaire, ton, logique) est augmenté par du RAG sur les données fraîches (documents, tickets, bases de connaissances). Le tout est piloté par un System Prompt qui définit les garde-fous, le format de sortie et les règles de citation des sources.
Prompt Engineering en fondation, RAG pour la connaissance, Fine-tuning pour le comportement. Chaque couche renforce les autres.