Récupération d'information probabiliste & IR basé sur les modèles de langage
Modèles probabilistes de l'IR : BM25, modèles de langage et modèles de pertinence pour la récupération de documents.
Retrieval-augmented generation, search systems, and document intelligence.
28
Cours
2
Subcategories
909h+
Heures Totales
Tous niveaux
Plage de Difficulté
Récupération d'information probabiliste & IR basé sur les modèles de langage
Modèles probabilistes de l'IR : BM25, modèles de langage et modèles de pertinence pour la récupération de documents.
Apprentissage à classer
Consistance et calibration de l'apprentissage à classer : pertes pair-à-pair, liste-à-liste et analyse de substitution.
Récupération dense vs sparse
Théorie de la récupération neuronale dense et sparse : représentation, entraînement et stratégies de fusion.
Apprentissage Metric et Voisin le Plus Proche Approximatif
Théorie des pertes d'apprentissage metric et structures de données ANN pour la récupération basée sur l'embedding.
Décomposition des Erreurs RAG & Limites de Performance
Analyser les erreurs des systèmes RAG : échecs de récupération, hallucinations de génération et limites de performance de bout en bout.
Théorie de l'Évaluation en IR/NLP
Méthodologie d'évaluation rigoureuse : accord entre annotateurs, tests statistiques et reproductibilité en IR/NLP.
Tokenisation & Modèles de Sous-Mots
Analyse informationnelle de la tokenisation : BPE, Unigram et leur impact sur la performance en aval.
Vérification des Faits & Test de Hallucination
Méthodes pour la vérification automatisée des faits, la détection des hallucinations et l'évaluation de la fidélité dans les LLMs.
Structure Documentaire en tant que Graphes
Modéliser la structure documentaire—sections, tableaux, références—sous forme de graphes pour une meilleure compréhension.
Provenance & Récupération Vérifiable
Suivez et vérifiez la provenance des informations récupérées pour des systèmes RAG fiables.
Théorie de la Récupération & Alignement Cross-Lingual
Théorie de la récupération d'informations cross-lingual : embeddings multilingues, alignement et transfert zéro-shot.
Édition de Connaissances & Contraintes de Cohérence
Éditez des connaissances dans des modèles de langage tout en maintenant la cohérence : ROME, MEND et propagation de contraintes.