Agents, RL & Decision Science

Agents, RL & Decision Science

Reinforcement learning, multi-agent systems, causality, and decision optimization.

39

Cours

3

Subcategories

1279h+

Heures Totales

Tous niveaux

Plage de Difficulté

Visual

Étape 7 Exemples de Modèles Non Linéaires 7.6 Modélisation Basée sur les Agents

Un cours générique sur la Modélisation Basée sur les Agents. Contenu à venir.

Agent-Based Modeling4hIntermediateEnglish
Visual

Théorie de la décision & Préférences robustes

Fondements de la prise de décision rationnelle : théorie de l'utilité, mesures de risque et modèles de préférences robustes.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

Apprentissage en ligne & Bandits adverses

Minimisation du regret dans l'apprentissage en ligne : experts, bandits adverses et poids multiplicatifs.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

Bandits Contextuels & Évaluation Hors Politique

Bandits contextuels pour la personnalisation avec des méthodes d'évaluation hors politique pour un déploiement sûr.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

Apprentissage de Politique & Minimisation du Risque Contrefactuel

Apprenez des politiques optimales à partir de données de bandits enregistrées en utilisant la minimisation du risque contrefactuel.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

MDPs & Programmation Dynamique

Processus de décision de Markov : fondements des équations de Bellman, itération de valeur et itération de politique.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

RL avec approximation de fonction

Apprentissage par renforcement avec approximation de fonction linéaire et neuronale : DQN, gradient de politique et analyse de convergence.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

RL sûr, robuste et sensible au risque

RL sous contraintes de sécurité : MDP contraints, MDP robustes et objectifs sensibles au risque.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

RL inverse & Apprentissage par imitation

Apprenez des fonctions de récompense à partir de démonstrations : IRL, clonage comportemental et DAgger.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

Évaluation hors politique : IS, DR, garanties FQE

Théorie de l'évaluation hors politique en RL : échantillonnage importance, méthodes doublement robustes, et évaluation Q ajustée.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

Complexité d'échantillonnage & Garanties de style PAC en RL

Cadre PAC-MDP, bornes de complexité d'échantillonnage et taux minimax pour l'apprentissage par renforcement.

Bandits, Causality & RL Theory4hAdvancedEnglish
Visual

POMDPs & Contrôle d'État d'Information

MDPs partiellement observables : états de croyance, états d'information, et planification sous observabilité partielle.

Bandits, Causality & RL Theory4hAdvancedEnglish
Showing 12 resultsTotal: 39 courses
Pageof 4