RAG vs Fine-tuning : lequel choisir ?
Client :
Je dois personnaliser un LLM: je prends RAG ou fine-tuning ?
Moi :
La vraie question n’est pas “quelle techno est meilleure”, mais “quel problème voulez-vous résoudre”.
Dans beaucoup de cas, vous n’avez pas besoin de passer tout de suite au RAG ni au fine-tuning. Une bonne stratégie de prompt peut déjà produire un gain fort, rapidement.
Commencer par le prompt (souvent suffisant)
Le prompting consiste à cadrer précisément le rôle du modèle, le contexte, les contraintes et le format attendu.
Exemples de consignes qui changent fortement le résultat:
- “Réponds comme un consultant conformité, en 5 points maximum.”
- “N’invente rien: si l’information manque, dis-le explicitement.”
- “Donne la réponse au format: Risque / Impact / Recommandation.”
Cette approche est souvent suffisante quand:
- le besoin est surtout éditorial ou de structuration,
- les informations sont déjà dans le prompt ou faciles à fournir,
- vous voulez valider rapidement la valeur avant d’investir davantage.
Le prompting est donc le meilleur point de départ: rapide, peu coûteux, et facile à itérer.
Quand choisir RAG
Le RAG (Retrieval-Augmented Generation) est idéal quand la connaissance métier change souvent et doit rester traçable.
Exemples:
- documentation produit qui évolue en continu,
- base contractuelle ou réglementaire à citer,
- FAQ interne qui doit rester à jour.
Avantages:
- mise à jour rapide sans ré-entraîner le modèle,
- citations possibles des sources,
- meilleur contrôle de la fraîcheur des informations.
Quand choisir le fine-tuning
Le fine-tuning est plus adapté pour modifier durablement la manière dont le modèle répond:
- ton de marque,
- structure de sortie standardisée,
- comportements spécifiques sur des cas répétitifs.
Il est utile quand le besoin est stable et récurrent, avec des exemples de haute qualité.
La stratégie que je recommande
Dans la plupart des contextes d’entreprise, la meilleure approche est hybride:
- Prompting structuré pour cadrer les réponses.
- RAG pour injecter la connaissance métier vivante.
- Fine-tuning léger pour le style et la robustesse de sortie.
En clair: le prompt cadre la mission, RAG gère ce qu’il faut savoir, et fine-tuning stabilise comment répondre à grande échelle.
Erreurs classiques à éviter
- fine-tuner trop tôt sans socle de données propre,
- utiliser seulement RAG alors que le format de sortie est critique,
- ne pas mesurer précision, latence, coût et taux d’hallucination.
Un exemple
Imaginons un cabinet juridique qui doit répondre vite à des questions internes sur les contrats.
- Si les textes de référence changent souvent, RAG est prioritaire: il ira chercher la bonne clause à jour.
- Si la direction veut une réponse toujours structurée de la même manière (risque, recommandation, action), un fine-tuning léger peut compléter.
Dans ce cas, le duo RAG + fine-tuning est souvent le plus robuste: information fraîche + forme homogène.
Je recommande de vous poser 4 questions
Pour prendre une bonne décision rapidement:
- Un prompt bien structuré a-t-il déjà été testé sérieusement ?
Si non, commencez par là. - La connaissance change-t-elle toutes les semaines ?
Si oui, ajoutez du RAG. - Le format de réponse est-il stratégique (audit, conformité, communication client) ?
Si oui, envisagez le fine-tuning. - Avez-vous des exemples validés en quantité suffisante ?
Si non, évitez de fine-tuner trop tôt.
Cette grille simple permet d’éviter les choix techniques “à la mode” et de rester orienté résultat métier.