Dans le domaine de l’intelligence artificielle générative, les systèmes de Retrieval-Augmented Generation (RAG) ont révolutionné la manière dont les modèles répondent aux questions en s’appuyant sur des bases de connaissances externes. Cependant, les approches classiques de RAG, qui se limitent à une seule étape de récupération, montrent leurs limites face à des questions complexes ou des bases de données volumineuses.
C’est là que les RAG multi-étapes et les retrieval cascades entrent en jeu.
1. Le RAG Classique : Rappel et Limites
Le RAG traditionnel fonctionne en deux étapes :
- Récupération (Retrieval) : Un modèle recherche des documents pertinents dans une base de données vectorielle (ex : ChromaDB, FAISS) en utilisant des embeddings.
- Génération (Generation) : Un modèle de langage (ex : Llama3, Mistral) génère une réponse à partir des documents récupérés.
Limites :
- Difficulté à gérer des questions complexes ou multi-parties.
- Risque de « hallucination » si les documents récupérés sont insuffisants ou non pertinents.
- Performance limitée sur de très grandes bases de données.
RAG Multi-étapes : Décomposer pour Mieux Répondre
Principe
Le RAG multi-étapes divise le processus de récupération et de génération en plusieurs phases, souvent en décomposant la question initiale en sous-questions ou en approfondissant la recherche.
Fonctionnement
- Analyse de la question : Un modèle identifie les sous-thèmes ou les aspects à explorer (ex : « Quels sont les effets secondaires du médicament X et ses alternatives ? » → 2 sous-questions).
- Récupération ciblée : Chaque sous-question fait l’objet d’une recherche spécifique.
- Fusion des résultats : Les informations récupérées sont combinées pour générer une réponse globale.
Avantages
- Précision : Meilleure couverture des questions complexes.
- Flexibilité : Adaptation aux requêtes multi-facettes (ex : médical, juridique).
- Réduction des erreurs : Croisement de plusieurs sources pour limiter les hallucinations.
Retrieval Cascade : Filtrer pour Optimiser
Principe
La retrieval cascade organise les retrievers en une hiérarchie, où chaque niveau affine les résultats du précédent. L’objectif est d’équilibrer rapidité et précision, surtout sur de grandes bases de données.
Fonctionnement
- Niveau 1 (Rapide) : Un retriever léger (ex : BM25) sélectionne un large ensemble de documents candidats.
- Niveau 2 (Précis) : Un retriever plus coûteux (ex : embeddings avancés) re-classe les candidats pour n’en garder qu’une poignée.
- Génération : La réponse est générée à partir des documents finaux.
Avantages
- Efficacité : Réduction du temps de traitement en limitant l’usage de modèles lourds aux documents présélectionnés.
- Scalabilité : Adapté aux bases de données très volumineuses.
- Précision : Combinaison des forces de plusieurs méthodes de retrieval.
