Étape 7 Exemples de Modèles Non Linéaires 7.6 Modélisation Basée sur les Agents
Un cours générique sur la Modélisation Basée sur les Agents. Contenu à venir.
Reinforcement learning, multi-agent systems, causality, and decision optimization.
39
Cours
3
Subcategories
1279h+
Heures Totales
Tous niveaux
Plage de Difficulté
Étape 7 Exemples de Modèles Non Linéaires 7.6 Modélisation Basée sur les Agents
Un cours générique sur la Modélisation Basée sur les Agents. Contenu à venir.
Théorie de la décision & Préférences robustes
Fondements de la prise de décision rationnelle : théorie de l'utilité, mesures de risque et modèles de préférences robustes.
Apprentissage en ligne & Bandits adverses
Minimisation du regret dans l'apprentissage en ligne : experts, bandits adverses et poids multiplicatifs.
Bandits Contextuels & Évaluation Hors Politique
Bandits contextuels pour la personnalisation avec des méthodes d'évaluation hors politique pour un déploiement sûr.
Apprentissage de Politique & Minimisation du Risque Contrefactuel
Apprenez des politiques optimales à partir de données de bandits enregistrées en utilisant la minimisation du risque contrefactuel.
MDPs & Programmation Dynamique
Processus de décision de Markov : fondements des équations de Bellman, itération de valeur et itération de politique.
RL avec approximation de fonction
Apprentissage par renforcement avec approximation de fonction linéaire et neuronale : DQN, gradient de politique et analyse de convergence.
RL sûr, robuste et sensible au risque
RL sous contraintes de sécurité : MDP contraints, MDP robustes et objectifs sensibles au risque.
RL inverse & Apprentissage par imitation
Apprenez des fonctions de récompense à partir de démonstrations : IRL, clonage comportemental et DAgger.
Évaluation hors politique : IS, DR, garanties FQE
Théorie de l'évaluation hors politique en RL : échantillonnage importance, méthodes doublement robustes, et évaluation Q ajustée.
Complexité d'échantillonnage & Garanties de style PAC en RL
Cadre PAC-MDP, bornes de complexité d'échantillonnage et taux minimax pour l'apprentissage par renforcement.
POMDPs & Contrôle d'État d'Information
MDPs partiellement observables : états de croyance, états d'information, et planification sous observabilité partielle.