Vous posez une question à ChatGPT sur la procédure interne de votre entreprise. Il vous répond avec assurance… mais c'est faux. Normal : le LLM n'a jamais vu vos documents. Il génère une réponse plausible à partir de ses données d'Entraînement, pas à partir de vos données réelles.

Le RAG résout exactement ce problème.

Le RAG en une phrase

RAG signifie Retrieval-Augmented Generation — génération augmentée par la recherche. Le principe : avant de générer une réponse, le LLM va chercher les informations pertinentes dans une base de connaissances externe, puis s'en sert comme contexte pour formuler sa réponse.

C'est la différence entre un étudiant qui répond de mémoire à un examen et un étudiant qui a le droit de consulter ses notes. Les deux utilisent leur intelligence pour rédiger, mais le second s'appuie sur des sources fiables.

Le pipeline RAG étape par étape

Un système RAG fonctionne en deux phases : l'ingestion des documents, puis l'interrogation en temps réel.

Phase 1 — Ingestion. Vos documents (PDF, pages web, bases de données, emails, wikis) sont d'abord découpés en morceaux de taille cohérente : c'est le Chunking. La taille des chunks est critique : trop grands, ils noient l'information utile ; trop petits, ils perdent le contexte. Les stratégies courantes incluent le découpage par paragraphe, par nombre de tokens, ou par sections sémantiques (Semantic Chunking).

Chaque chunk est ensuite transformé en vecteur numérique par un modèle d'Embedding. Ce vecteur capture le sens du texte dans un espace mathématique à haute dimension. Deux textes au sens similaire auront des vecteurs proches, même si les mots utilisés sont différents. Ces vecteurs sont stockés dans une Base vectorielle (Pinecone, Weaviate, Qdrant, Chroma, pgvector).

Phase 2 — Interrogation. Quand l'utilisateur pose une question, celle-ci est transformée en vecteur par le même modèle d'Embedding. Le système effectue une recherche par similarité (Similarity Search) dans la base vectorielle pour trouver les chunks les plus proches. Ces chunks sont injectés dans le Prompt du LLM comme contexte, et le modèle génère sa réponse en s'appuyant sur ces sources.

Pourquoi pas simplement tout mettre dans le prompt ?

Question légitime. Les LLM modernes ont des Context Window de 128k, voire 1M de tokens. Pourquoi ne pas copier-coller tous les documents directement dans le prompt ?

Trois raisons. Le coût : chaque token en entrée est facturé. Envoyer 500 pages à chaque requête est prohibitif. La performance : les LLM souffrent du problème « Lost in the Middle » — ils gèrent moins bien l'information au milieu d'un contexte très long. Et la pertinence : le RAG sélectionne chirurgicalement les passages pertinents, ce qui améliore la qualité de la réponse.

Les pièges du RAG

Le RAG n'est pas magique. Plusieurs points de défaillance existent dans le pipeline.

Un mauvais Chunking produit des résultats incohérents. Si un chunk coupe une explication en plein milieu, le LLM reçoit un contexte incomplet. La stratégie de découpage doit respecter la structure logique du document.

Un modèle d'Embedding inadapté rate la correspondance sémantique. Un Embedding entraîné sur de l'anglais technique fonctionnera mal sur du français juridique. Le choix du modèle (OpenAI ada-002, Cohere embed, BGE, CamemBERT) doit correspondre à votre domaine et votre langue.

La recherche par similarité pure peut ramener des passages superficiellement proches mais hors sujet. Les approches hybrides combinent la recherche vectorielle avec la recherche lexicale (BM25) pour améliorer le recall.

Et enfin, le LLM peut toujours Halluciner même avec un bon contexte. Le Grounding — forcer le modèle à citer ses sources — et la vérification automatique (Fact-checking) réduisent ce risque.

RAG avancé : les évolutions

Le RAG de base a engendré des variantes plus sophistiquées.

Le Reranking ajoute une étape après la recherche : un modèle spécialisé reclasse les résultats pour ne garder que les plus pertinents avant de les envoyer au LLM.

Le RAG multi-étapes (aussi appelé Agentic RAG) permet au LLM de reformuler sa requête, interroger plusieurs sources, et affiner ses résultats de façon itérative — comme un Agent IA qui mène sa propre recherche.

Le GraphRAG structure les connaissances en graphe de relations plutôt qu'en chunks plats, ce qui améliore la gestion des questions complexes impliquant plusieurs entités liées.

RAG vs Fine-tuning

Le RAG et le Fine-tuning servent des objectifs différents. Le RAG connecte le LLM à des données externes en temps réel, sans modifier le modèle. Le Fine-tuning modifie les poids du modèle pour lui enseigner un style, un vocabulaire ou un comportement spécifique. Le RAG est préférable quand les données changent souvent ou quand la traçabilité des sources est importante. Le Fine-tuning est préférable pour adapter le ton, le format de réponse ou enseigner des connaissances très spécialisées.

En pratique, les meilleurs systèmes combinent les deux : un modèle fine-tuné sur le domaine métier, augmenté par du RAG sur les données actualisées.

hIAppy Vision

hIAppy Lab

hIAppy Stream

hIAppy Learn

hIAppy Chat

Cas clients

Comprendre l'IA

Dictionnaire IA

Blog

Livre blanc

Méthodes de Prompting

RAG : connecter l'IA à vos données