Natasha Ngan Libros Populares

Natasha Ngan Biografía y Hechos

El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.[1]​ Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses. Definición De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo: Un conjunto S {\displaystyle S} de estados ambientales. Un set A i {\displaystyle {\mathcal {A}}_{i}} de acciones para cada uno de los agentes i ∈ I = { 1 , . . . , N } {\displaystyle i\in I=\{1,...,N\}} . P a → ( s , s ′ ) = Pr ( s t + 1 = s ′ ∣ s t = s , a → t = a → ) {\displaystyle P_{\overrightarrow {a}}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,{\overrightarrow {a}}_{t}={\overrightarrow {a}})} es la probabilidad de transición (en el tiempo t {\displaystyle t} ) del estado s {\displaystyle s} a estado s ′ {\displaystyle s'} bajo acción conjunta a → {\displaystyle {\overrightarrow {a}}} . R → a → ( s , s ′ ) {\displaystyle {\overrightarrow {R}}_{\overrightarrow {a}}(s,s')} es la recompensa conjunta inmediata después de la transición de s {\displaystyle s} a s ′ {\displaystyle s'} con acción conjunta a → {\displaystyle {\overrightarrow {a}}} . En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual. Cooperación versus competencia Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados. Escenarios de competición pura Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades. Entornos de cooperación pura En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas. En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí. Configuraciones de suma mixta La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia. Dilemas sociales Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error. Dilemas sociales secuenciales Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles. Aplicaciones El aprendizaje por refuerzo de múltiples agentes se ha aplicado a: Limitaciones Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.[16]​ El entorno ya no es estacionario, por lo que se viola la propiedad de Markov. Software Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente: Otras lecturas    Yang, Yaodong; Wang, Jun (2020). «An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective». .  Referencias. Descubre los libros populares de Natasha Ngan. Encuentra los 100 libros más populares de Natasha Ngan

.

Best Seller Natasha Ngan Libros de 2024

  • Infinity Alchemist sinopsis y comentarios

    Infinity Alchemist

    Kacen Callender

    'Spellbinding, fastpaced and deeply romantic.' Aiden Thomas'A blast of heartracing magic you won't want to miss.' Andrew Joseph White'Story alchemy unlike any other.' A. R. Capetta...

  • That Self-Same Metal sinopsis y comentarios

    That Self-Same Metal

    Brittany N. Williams

    A sweeping YA fantasy debut, placing black queerness at the centre of Shakespearian London. Perfect for fans of Holly Black and Sarah J Maas. Sixteenyearold Joan Sands is a gift...