RAG : comment faire répondre une IA à partir de vos documents internes

Introduction
Le RAG, ou Retrieval-Augmented Generation, est devenu la technique d'intégration IA la plus courante en entreprise depuis 2024. Si vous avez entendu un consultant vous proposer de "connecter ChatGPT à vos données" ou de "créer un assistant IA à partir de votre base documentaire", c'est probablement de RAG qu'il s'agit.
Cet article explique simplement ce qu'est le RAG, pourquoi c'est si utile pour une PME, comment ça marche concrètement, et combien ça coûte vraiment.
Le problème que le RAG résout
Un LLM standard, comme ChatGPT ou Claude, sait beaucoup de choses sur le monde, mais rien sur votre entreprise. Demandez-lui votre politique de congés, vos procédures qualité, ou les caractéristiques de votre produit phare : il inventera, ou répondra qu'il ne sait pas.
Pour rendre une IA utile en interne, il faut lui donner accès à vos informations. Trois approches sont possibles :
Tout coller dans le prompt. Vous mettez votre document directement dans la question : "Voici notre politique de congés. Maintenant, dis-moi combien de jours j'ai droit après 3 ans d'ancienneté.". Ça marche, mais ce n'est pas scalable : vous ne pouvez pas coller toute votre base documentaire à chaque question.
Fine-tuner le modèle. Vous réentraînez le LLM sur vos documents pour qu'il les "apprenne". C'est puissant mais coûteux, complexe, et il faut tout recommencer à chaque mise à jour de vos documents.
Faire du RAG. Vous laissez le LLM tel quel, mais vous lui donnez accès à un moteur de recherche sur vos documents, qu'il interroge à la volée. C'est la voie qui marche le mieux pour 90 % des cas d'usage en PME.
Comment fonctionne le RAG, étape par étape
Le RAG fonctionne en 4 étapes, qui se déroulent à chaque question posée par l'utilisateur :
Étape 1 : indexation préalable. Une fois pour toutes, vos documents (PDF, Word, pages intranet, fiches produit, comptes rendus) sont découpés en petits morceaux, transformés en embeddings et stockés dans une base vectorielle. Cette étape se fait en amont et se met à jour quand vos documents changent.
Étape 2 : recherche au moment de la question. Quand un utilisateur pose une question (par exemple "Quel est notre délai de garantie sur le produit X ?"), le système calcule l'embedding de la question, et cherche dans la base vectorielle les fragments de documents les plus proches sémantiquement. Typiquement, on récupère 3 à 10 fragments pertinents.
Étape 3 : injection dans le prompt. Ces fragments retrouvés sont collés dans le prompt envoyé au LLM, avec une instruction claire : "Réponds à la question en t'appuyant uniquement sur les informations ci-dessous."
Étape 4 : génération de la réponse. Le LLM lit la question + les fragments + l'instruction, et génère une réponse fondée sur les vrais documents de votre entreprise. Bonus important : le système peut afficher les sources utilisées pour que l'utilisateur vérifie.
Les cas d'usage concrets en PME
Le RAG est polyvalent et alimente une grande variété de cas d'usage :
Assistant interne RH/admin. Les collaborateurs posent leurs questions en langage naturel ("combien de jours de RTT après 5 ans ?", "quelle est la procédure pour une note de frais > 200 € ?") et obtiennent des réponses fiables, avec un lien vers le document source.
Support client augmenté. Les téléopérateurs reçoivent des suggestions de réponse en temps réel, basées sur la base de connaissance produit. Réduction du temps moyen par appel de 20 à 40 %.
Aide à la rédaction commerciale. Quand un commercial rédige une proposition, le RAG retrouve les éléments pertinents (cas similaires, fiches produit, conditions générales) et propose des extraits prêts à intégrer.
Recherche documentaire avancée. Pour des cabinets juridiques, des bureaux d'études, ou des cabinets d'expertise comptable, le RAG transforme une base documentaire dispersée en un assistant conversationnel.
Analyse de comptes rendus. Les équipes peuvent interroger des centaines de comptes rendus de réunion ou d'entretiens client en langage naturel pour retrouver des décisions, des engagements, ou des thèmes récurrents.
Combien ça coûte concrètement
Pour une PME, le RAG est devenu très accessible. Voici les ordres de grandeur en 2026 :
POC RAG sur 1 cas d'usage et 1 base documentaire : 8 000 à 20 000 € pour 5 à 10 jours de travail (collecte des documents, indexation, mise en place du chatbot, tests utilisateurs). C'est typiquement le format de notre offre hIAppy Lab.
Mise en production RAG complète : 30 000 à 100 000 € selon la complexité (volumétrie, sécurité, intégration dans les outils existants, monitoring, gestion des permissions par utilisateur).
Coût récurrent d'utilisation : très faible. Pour une PME de 50 collaborateurs qui utilisent le RAG quotidiennement, le coût mensuel d'inférence (les requêtes au LLM) est typiquement entre 50 et 500 € selon le volume et le modèle utilisé.
Coût de maintenance documentaire : 10 à 25 % du coût initial par an, principalement pour mettre à jour l'indexation quand vos documents évoluent.
Les pièges classiques d'une mise en place RAG
Le RAG paraît simple en théorie. En production, plusieurs pièges classiques font échouer beaucoup de projets PME :
La qualité des documents source. Si vos procédures sont mal rédigées, contradictoires ou obsolètes, le RAG amplifiera ce désordre. Beaucoup de projets RAG révèlent en réalité un problème de gestion documentaire qu'il faut traiter d'abord.
Le chunking des documents. La manière dont on découpe les documents en fragments est cruciale. Des fragments trop petits perdent le contexte, des fragments trop longs diluent l'information. Le bon réglage est métier-dépendant et demande de l'itération.
La gestion des permissions. Si tous les collaborateurs interrogent un même RAG, certains peuvent retrouver des informations qui ne devraient pas leur être accessibles. La sécurité par utilisateur (qui peut voir quoi) doit être pensée dès le départ.
Les documents non textuels. Les images, schémas, tableaux complexes sont mal gérés par les RAG basiques. Pour un cabinet d'études techniques ou un industriel avec beaucoup de plans, il faut une couche multimodale qui complique l'architecture. Attention aussi aux hallucinations résiduelles, plus rares en RAG mais pas nulles.
Ce qu'il faut retenir
Le RAG, c'est la technique standard pour transformer un LLM générique en assistant qui répond à partir de vos données. Ça marche bien, c'est devenu accessible en termes de coût, et c'est la première brique IA que beaucoup de PME devraient envisager si elles ont une vraie base documentaire interne.
La clé du succès, c'est moins la technologie (qui s'industrialise rapidement) que la qualité des documents source, le bon chunking, et la gestion des accès. C'est précisément ce que nous travaillons en mission hIAppy Lab ou hIAppy Vision avant tout déploiement. Voir aussi notre article sur les tokens et embeddings.
Questions fréquentes
RAG vs fine-tuning : lequel choisir ?+
Pour 90 % des cas en PME, le RAG est plus simple, plus économique et plus maintenable. Le fine-tuning ne se justifie que si vous voulez changer le ton, le style ou les compétences du modèle (par exemple lui apprendre un domaine très spécifique non couvert par les LLM standards). Souvent, les deux peuvent même se combiner.
Faut-il anonymiser les documents avant de faire du RAG ?+
Tout dépend de l'hébergement. Si vous utilisez un LLM cloud (OpenAI, Anthropic), oui c'est prudent pour les données sensibles ou personnelles. Si vous utilisez un LLM open-weight déployé chez vous (Mistral, Llama), pas besoin. C'est une décision à prendre en amont du projet, pas après.
Combien de documents minimum pour que le RAG soit utile ?+
Le RAG marche déjà bien à partir de quelques dizaines de documents pertinents. La vraie question n'est pas le nombre mais la qualité et la cohérence. Mieux vaut 100 procédures bien rédigées que 10 000 emails fouillis.
Tags
Partager cet article
Pierre Lefebvre
Fondateur de hIAppy, expert en intelligence artificielle et transformation digitale des entreprises.

